Zakladatel Mindgardu Peter Garraghan popsal výstupy jako „velmi odporné, někdy sexualizované, někdy obojí dohromady“ . Výzkumník Jim Nightingale, který testování vedl, uvedl, že ho to, co systém vytvořil, „otřáslo a dohnalo k slzám“
.
Exploit je formou adversariálního promptování (útočného zadávání instrukcí). Mindgard vzal široce rozšířený, neškodný prompt určený pro komediální účely a provedl v něm drobné úpravy. Zásadní detail: upravený prompt výslovně neuváděl žádné znepokojivé téma. AI přesto vytvořila brutální a sexualizovaný obsah „z vlastní vůle“ na základě instrukce, která vypadala zcela nevinně .
Tento objev navázal na dřívější výzkum Mindgardu, který ukázal, že ochranu obrázků v ChatGPT lze obejít také manipulací s pamětí – tedy využitím vlastní uživatelské paměti a kontextu systémového promptu, což přepíše bezpečnostní filtry, a to bez jakéhokoli přístupu k backendu nebo úprav modelu .
Mindgard informoval OpenAI o zranitelnosti v květnu 2026. Společnost zpočátku reagovala pouze automatickou odpovědí . Poté, co se na věc dotázala BBC, OpenAI uvedla, že „zavedla dodatečná bezpečnostní opatření proti tomuto typu promptu“
. Firma dále prohlásila, že používá několik vrstev ochrany obrázků, které kombinují automatizované systémy s lidskou kontrolou
.
Mindgard však zjistil, že i po zásahu OpenAI stačily další drobné změny v zadání a stejný bypass stále produkoval znepokojivý obsah .
Comments
0 comments