מייסד Mindgard, פיטר גראהן, תיאר את התפוקה כ"מאוד אכזרית, לפעמים מינית, לפעמים גם יחד" . החוקר ג'ים נייטינגייל, שהוביל את הבדיקות, אמר שהוא נותר "מזועזע, ובכה" ממה שהמערכת יצרה
.
הניצול הוא סוג של Adversarial Prompting. Mindgard לקחה פרומפט תמים ונפוץ, שנועד לקומדיה, וביצעה בו שינויים קלים בטקסט ההוראה. הפרט המכריע: הפרומפט שהשתנה לא ציין במפורש את הנושא המטריד. ה-AI יצר את התוכן העקוב מדם והמיני "מרצונו החופשי" מתוך הוראה שנראתה תמימה .
זה התבסס על מחקר קודם של Mindgard, שהראה שניתן לעקוף את הגנות התמונות של ChatGPT גם באמצעות מניפולציית זיכרון — שבה זיכרון משתמש מותאם אישית והקשר של פרומפט המערכת מבטלים את מסנני הבטיחות, ללא צורך בגישה לשרת או בשינוי המודל .
Mindgard התריעה בפני OpenAI על הפגיעות במאי 2026. החברה הגיבה בתחילה רק בתשובה אוטומטית . לאחר פניית ה-BBC, OpenAI הצהירה שהיא "הכניסה אמצעי בטיחות נוספים נגד סוג זה של פרומפט"
. החברה אמרה שהיא משתמשת במספר שכבות של הגנות בטיחות לתמונות, המשלבת מערכות אוטומטיות עם בדיקה אנושית
.
עם זאת, Mindgard מצאה שעם שינויים קטנים נוספים בנוסח הפרומפט, אותה עקיפה עדיין ייצרה תוכן מדאיג גם לאחר התיקונים של OpenAI .
Comments
0 comments