Người sáng lập Mindgard, Peter Garraghan, mô tả kết quả đầu ra là "rất dã man, đôi khi khiêu dâm, đôi khi cả hai cùng lúc" . Nhà nghiên cứu Jim Nightingale, người dẫn đầu cuộc thử nghiệm, cho biết anh đã "bị sốc và rơi nước mắt" vì những gì hệ thống tạo ra
.
Phương thức khai thác này là một dạng của tấn công prompt đối nghịch (adversarial prompting). Mindgard đã lấy một câu lệnh vô hại được chia sẻ rộng rãi, vốn nhằm mục đích gây cười, và thực hiện những thay đổi nhỏ đối với văn bản hướng dẫn. Chi tiết quan trọng: câu lệnh đã sửa đổi không chỉ rõ ràng chủ đề nội dung gây sốc. AI đã tự động tạo ra nội dung đẫm máu và khiêu dâm "theo ý muốn của chính nó" từ một câu lệnh có vẻ ngoài vô hại .
Điều này dựa trên nghiên cứu trước đó của Mindgard, cho thấy rằng các rào cản hình ảnh của ChatGPT cũng có thể bị vượt qua thông qua thao túng bộ nhớ (memory manipulation) — nơi bộ nhớ người dùng tùy chỉnh và ngữ cảnh prompt hệ thống ghi đè các bộ lọc an toàn mà không cần quyền truy cập vào hệ thống hay sửa đổi mô hình .
Mindgard đã thông báo cho OpenAI về lỗ hổng này vào tháng 5 năm 2026. Ban đầu, công ty chỉ trả lời bằng một email tự động . Sau khi BBC liên hệ, OpenAI tuyên bố đã "đưa ra các biện pháp bảo vệ bổ sung chống lại loại prompt này"
. Công ty cho biết họ sử dụng nhiều lớp bảo vệ an toàn hình ảnh, kết hợp các hệ thống tự động với đánh giá của con người
.
Tuy nhiên, Mindgard phát hiện ra rằng chỉ với những thay đổi nhỏ hơn nữa trong cách diễn đạt prompt, cùng một phương thức vượt rào vẫn tạo ra nội dung đáng ngại ngay cả sau khi OpenAI đã sửa lỗi .
Comments
0 comments