Peter Garraghan, fondatore di Mindgard, ha descritto i risultati come «molto raccapriccianti, a volte sessualizzati, a volte entrambi» . Il ricercatore Jim Nightingale, che ha condotto i test, ha raccontato di essere rimasto «scosso fino alle lacrime» da ciò che il sistema ha prodotto
.
L'exploit è una forma di adversarial prompting. Mindgard ha preso un prompt innocuo molto diffuso, pensato per scopi umoristici, e vi ha apportato piccole modifiche. Il punto cruciale: il prompt modificato non specificava esplicitamente il contenuto disturbante. L'IA ha generato immagini violente e sessuali «di sua iniziativa» a partire da un'istruzione apparentemente innocua .
Questa scoperta si basa su ricerche precedenti di Mindgard, che avevano già mostrato come fosse possibile aggirare i filtri di ChatGPT attraverso la manipolazione della memoria — sfruttando la memoria personalizzata dell'utente e il contesto del system prompt per sovrascrivere le protezioni, senza alcun accesso al backend né modifica del modello .
Mindgard ha segnalato la vulnerabilità a OpenAI nel maggio 2026. L'azienda ha inizialmente risposto solo con un messaggio automatico . Dopo che il BBC ha chiesto chiarimenti, OpenAI ha dichiarato di aver «introdotto ulteriori protezioni contro questo tipo di prompt»
. L'azienda ha spiegato di utilizzare più livelli di sicurezza, combinando sistemi automatici con revisione umana
.
Tuttavia, Mindgard ha scoperto che, con ulteriori piccole modifiche al prompt, lo stesso bypass continuava a produrre contenuti preoccupanti anche dopo gli interventi di OpenAI .
Comments
0 comments