El fundador de Mindgard, Peter Garraghan, describió el resultado como "muy macabro, a veces sexualizado, a veces ambas cosas a la vez" . El investigador Jim Nightingale, quien lideró las pruebas, dijo que quedó "conmocionado y llorando" por lo que el sistema produjo
.
La explotación es una forma de ataque adversarial de prompt. Mindgard tomó un prompt inofensivo ampliamente compartido, destinado a la comedia, y le hizo pequeñas modificaciones al texto de la instrucción. El detalle crucial: el prompt modificado no especificaba explícitamente el tema perturbador. La IA generó el contenido sangriento y sexualizado "por su propia voluntad" a partir de una instrucción que aparentaba ser inocua .
Esto se basó en investigaciones anteriores de Mindgard, que mostraron que las salvaguardas de imágenes de ChatGPT también podían eludirse mediante manipulación de la memoria —donde la memoria personalizada del usuario y el contexto del prompt del sistema anulan los filtros de seguridad sin necesidad de acceso al backend ni modificación del modelo .
Mindgard alertó a OpenAI sobre la vulnerabilidad en mayo de 2026. La empresa respondió inicialmente solo con una respuesta automática . Después de que la BBC preguntara al respecto, OpenAI declaró que había "introducido salvaguardas adicionales contra este tipo de prompt"
. La compañía dijo que emplea múltiples capas de protección de seguridad de imágenes que combinan sistemas automatizados con revisión humana
.
Sin embargo, Mindgard descubrió que con cambios pequeños adicionales en la redacción del prompt, la misma evasión seguía produciendo contenido preocupante incluso después de las correcciones de OpenAI .
Comments
0 comments