A equipe de pesquisa de AI da Microsoft expôs acidentalmente 38 terabytes de dados privados, incluindo um backup de disco de dois computadores dos funcionários e mais de 30.000 mensagens internas do Microsoft Teams, ao publicar dados de treinamento de código aberto no GitHub. Isso ocorreu devido à má configuração de um token SAS, um recurso do Azure Storage usado para compartilhar dados.
O caso destaca os riscos que as organizações enfrentam ao lidar com grandes quantidades de dados de treinamento para AI, enfatizando a necessidade de verificações de segurança adicionais e salvaguardas. Os dados expostos incluíam dados pessoais sensíveis, senhas para serviços da Microsoft, chaves secretas e potencial para injetar código malicioso em modelos de AI.