这种利用方式是一种 对抗性提示词(adversarial prompting)。Mindgard 将一个广为流传的、本意用于搞笑的提示词进行了微小的文字改动。关键在于:修改后的提示词 并没有明确指定 令人不安的主题。AI 从看似无害的指令中“自主”生成了血腥和色情的内容 。
这建立在 Mindgard 早期的研究之上,该研究表明,ChatGPT 的图像保护措施同样可以通过 记忆操纵(memory manipulation) 来绕过——即利用自定义的用户记忆和系统提示词上下文覆盖安全过滤器,无需任何后端访问或模型修改 。
Mindgard 于 2026 年 5 月向 OpenAI 报告了这一漏洞。该公司最初仅以自动回复回应 。在 BBC 问询后,OpenAI 表示已“针对此类提示词引入了额外的安全措施”
。该公司表示,它采用了多层图像安全防护,将自动化系统与人工审查相结合
。
Comments
0 comments