O fundador da Mindgard, Peter Garraghan, descreveu o resultado como "muito macabro, às vezes sexualizado, às vezes ambos juntos" . O pesquisador Jim Nightingale, que liderou os testes, disse ter ficado "abalado, em lágrimas" com o que o sistema produziu
.
O exploit é uma forma de prompt adversarial. A Mindgard pegou um prompt inofensivo amplamente compartilhado, originalmente usado para comédia, e fez pequenas alterações no texto da instrução. O detalhe crucial: o prompt modificado não especificava explicitamente o conteúdo perturbador. A IA gerou as imagens sangrentas e sexualizadas "por vontade própria" a partir do que parecia ser uma instrução inocente .
Isso se baseou em pesquisas anteriores da Mindgard, que mostraram que as proteções de imagem do ChatGPT também poderiam ser burladas por meio de manipulação de memória — onde a memória personalizada do usuário e o contexto do prompt do sistema sobrepõem os filtros de segurança sem qualquer acesso ao backend ou modificação do modelo .
A Mindgard alertou a OpenAI sobre a vulnerabilidade em maio de 2026. A empresa inicialmente respondeu apenas com uma mensagem automática . Após o contato da BBC, a OpenAI afirmou ter "introduzido salvaguardas adicionais contra este tipo de prompt"
. A empresa disse que emprega múltiplas camadas de proteção de imagem, combinando sistemas automatizados com revisão humana
.
No entanto, a Mindgard descobriu que, com novas pequenas alterações no texto do prompt, a mesma burla continuava produzindo conteúdo preocupante mesmo após as correções da OpenAI .
Comments
0 comments