Основатель Mindgard Питер Гарраган охарактеризовал результат как «очень жуткий, иногда сексуализированный, а иногда — и то и другое вместе» . Разработчик Джим Найтингейл, руководивший тестированием, признался, что был «потрясён и плакал» после того, что выдала система
.
Эксплойт представляет собой разновидность adversarial prompting (атака на модель через специально составленные промпты). Mindgard взяла широко распространённый безобидный промпт, предназначенный для комедийных целей, и слегка изменила формулировку. Ключевой момент: изменённый промпт не содержал явного указания на шокирующий сюжет — нейросеть «по собственной воле» сгенерировала кровавые и сексуализированные сцены из, казалось бы, безобидной инструкции .
Это продолжение более раннего исследования Mindgard, в котором они показали, что защиту ChatGPT можно обойти через манипуляцию памятью: подсовывая модели специально настроенную пользовательскую память и системный промпт, можно переопределить фильтры безопасности без доступа к бэкенду или модификации модели .
Mindgard сообщила об уязвимости в мае 2026 года. Сначала компания отреагировала только автоматическим ответом . После запроса BBC OpenAI заявила, что «ввела дополнительные меры защиты для промптов такого типа»
. Компания утверждает, что использует многоуровневую систему защиты изображений — комбинацию автоматических алгоритмов и ручной проверки
.
Однако выяснилось: достаточно ещё немного изменить формулировку промпта, и та же брешь продолжает работать — несмотря на «заплатку» от OpenAI .
Уязвимость, найденная Mindgard, — лишь часть общей картины, которую специалисты наблюдают во всей индустрии :
Comments
0 comments