Założyciel Mindgard, Peter Garraghan, opisał wyniki jako „bardzo makabryczne, czasem seksualizowane, a czasem jedno i drugie naraz” . Badacz Jim Nightingale, który prowadził testy, przyznał, że był „wstrząśnięty i doprowadzony do łez” tym, co system wyprodukował
.
Exploit jest formą ataku adversarialnego na prompt. Mindgard wziął powszechnie udostępniany, nieszkodliwy prompt przeznaczony do komedii i dokonał drobnych zmian w tekście instrukcji. Kluczowy szczegół: zmodyfikowany prompt nie określał wyraźnie niepokojącego tematu. AI wygenerowało makabryczne i seksualizowane treści „z własnej woli” na podstawie pozornie niewinnej instrukcji .
Opierało się to na wcześniejszych badaniach Mindgard, które wykazały, że zabezpieczenia obrazów ChatGPT można również ominąć poprzez manipulację pamięcią — gdzie niestandardowa pamięć użytkownika i kontekst promptu systemowego nadpisują filtry bezpieczeństwa bez dostępu do backendu lub modyfikacji modelu .
Mindgard poinformował OpenAI o luce w maju 2026 roku. Firma początkowo odpowiedziała jedynie automatyczną odpowiedzią . Po interwencji BBC, OpenAI oświadczyło, że „wprowadziło dodatkowe zabezpieczenia przed tego typu promptami”
. Firma stwierdziła, że stosuje wiele warstw ochrony obrazu, łącząc zautomatyzowane systemy z przeglądem ludzkim
.
Jednak Mindgard odkrył, że przy dalszych drobnych zmianach w sformułowaniu promptu, ten sam bypass wciąż produkował niepokojące treści, nawet po łatkach OpenAI .
Comments
0 comments