وصف المؤسس المشارك لميندغارد، بيتر غاراغان، المخرجات بأنها "بشعة جداً، وأحياناً جنسية، وأحياناً الاثنان معاً" . الباحث جيم نايتنغيل، الذي قاد الاختبارات، قال إنه شعر بـ"الرعشة والدموع" مما أنتجه النظام
.
الاختراق هو شكل من أشكال الهجوم التوجيهي المعادي (adversarial prompting). أخذت ميندغارد تعليمات برمجية (prompt) شائعة وغير ضارة مخصصة للكوميديا وأجرت تعديلات صغيرة على النص. التفصيل الجوهري: التعليمات البرمجية المعدلة لم تحدد صراحةً الموضوع المزعج. الذكاء الاصطناعي أنتج المحتوى الدموي والجنسي بمحض إرادته من تعليمات بدت غير مؤذية .
بُني هذا على أبحاث سابقة لميندغارد، أظهرت أنه يمكن تجاوز حواجز السلامة الخاصة بالصور في ChatGPT عبر التلاعب بالذاكرة (memory manipulation) — حيث تتجاوز ذاكرة المستخدم المخصصة وسياق التعليمات النظامية الحواجز الأمنية دون أي وصول للنظام الخلفي أو تعديل للنموذج .
أبلغت ميندغارد OpenAI بالثغرة في مايو 2026. ردّت الشركة مبدئياً برد آلي فقط . بعد استفسار بي بي سي، أعلنت OpenAI أنها "أضافت حواجز أمان إضافية ضد هذا النوع من التعليمات البرمجية"
. قالت الشركة إنها تستخدم طبقات متعددة من حماية الصور تجمع بين الأنظمة الآلية والمراجعة البشرية
.
ومع ذلك، وجدت ميندغارد أنه مع تغييرات صغيرة إضافية في صياغة التعليمات البرمجية، ما زالت الثغرة نفسها تنتج محتوى مقلقاً بعد إصلاحات OpenAI .
Comments
0 comments