마이크로소프트의 AI 연구팀은 GitHub에 오픈 소스 훈련 데이터를 게시하는 동안 실수로 2명의 직원의 작업 스테이션의 디스크 백업과 30,000개 이상의 내부 마이크로소프트 팀 메시지를 포함한 38 테라바이트의 개인 데이터를 노출시켰습니다. 이는 데이터를 공유하기 위해 Azure Storage의 기능인 SAS 토큰의 잘못된 구성으로 인한 것입니다.
이 사건은 AI를 위한 대규모 훈련 데이터를 처리할 때 조직이 직면하는 위험을 강조하며, 추가적인 보안 검사와 보호 조치의 필요성을 강조합니다. 노출된 데이터에는 민감한 개인 데이터, 마이크로소프트 서비스의 비밀번호, 비밀 키 및 악성 코드를 AI 모델에 삽입할 수 있는 잠재적인 가능성이 포함되어 있습니다.