이 공격은 적대적 프롬프팅(adversarial prompting) 의 한 형태입니다. Mindgard는 널리 공유된 무해한 코미디용 프롬프트를 가져와 지시문을 약간 수정했습니다. 결정적으로, 수정된 프롬프트는 폭력적인 주제를 명시적으로 지정하지 않았습니다. AI는 무해해 보이는 지시문에서 "스스로" 잔혹하고 성적인 콘텐츠를 생성했습니다 .
이는 Mindgard의 이전 연구를 기반으로 한 것입니다. 이전 연구에서는 사용자 맞춤 메모리와 시스템 프롬프트 컨텍스트를 조작하는 메모리 조작(memory manipulation) 을 통해 백엔드 접근이나 모델 수정 없이도 ChatGPT의 이미지 안전장치를 우회할 수 있음을 보여줬습니다 .
Mindgard는 2026년 5월에 OpenAI에 이 취약점을 알렸습니다. 회사는 처음에 자동 응답만을 보냈습니다 . BBC가 취재에 나서자 OpenAI는 "이 유형의 프롬프트에 대한 추가 안전장치를 도입했다"고 밝혔습니다
. 회사는 자동화 시스템과 인간 검토를 결합한 여러 겹의 이미지 안전 보호 장치를 운영하고 있다고 설명했습니다
.
Comments
0 comments