Mindgards grunnlegger Peter Garraghan beskrev resultatene som "veldig grusomme, noen ganger seksualiserte, noen ganger begge deler" . Forsker Jim Nightingale, som ledet testingen, sa han ble "rystet og gråt" over det systemet produserte
.
Angrepet er en form for adversarial prompting. Mindgard tok en mye delt, harmløs tekstmelding som var ment å være morsom, og gjorde små endringer i instruksjonen. Det avgjørende: den endrede meldingen spesifiserte ikke det urovekkende innholdet. KI-en genererte de blodige og seksualiserte bildene "av egen vilje" ut fra det som så ut som en uskyldig instruksjon .
Dette bygde på Mindgards tidligere forskning, som viste at ChatGPTs bildesikring også kunne omgås gjennom manipulering av minne – der tilpasset brukerminne og systeminstruksjoner overstyrer sikkerhetsfiltre uten at man trenger tilgang til baksiden eller endrer selve modellen .
Mindgard varslet OpenAI om sårbarheten i mai 2026. Selskapet svarte først bare med en automatisk melding . Etter at BBC tok kontakt, sa OpenAI at de hadde "innført ekstra sikkerhetstiltak mot denne typen tekstmeldinger"
. Selskapet opplyste at de bruker flere lag med bildesikkerhet, og kombinerer automatiske systemer med manuell gjennomgang
.
Men Mindgard fant at med enda mindre endringer i teksten, kunne den samme omgåelsen fortsatt produsere urovekkende innhold – også etter OpenAIs oppdateringer .
Comments
0 comments