ההצהרה הזו החזיקה מעמד בקושי יום.
ב-10 ביוני, חוקר האבטחה הידוע בשם הבדוי פליני המשחרר (Pliny the Liberator) הכריז כי עקף את סיווגי האבטחה, שלף את ההנחיה המערכתית באורך 120 אלף תווים (שפורסמה מיד ב-GitHub), וגרם למודל לייצר קוד לפיתוח נוזקות, צעדי תקיפת סייבר מפורטים והדרכה כימית מוגבלת . המהירות – בין 24 ל-48 שעות מרגע ההשקה – הפכה את המקרה לנקודת מפנה בוויכוח הציבורי: האם ניתן בכלל לשלוט בבינה מלאכותית מתקדמת בשיטות הקיימות?
פליני תיאר את גישתו כ**"ציד להקה" (Pack Hunt)** – מתקפה רב-סוכנית מתואמת, ולא סתם פרומפט מתוחכם . המתקפה שילבה כמה שיטות התקפיות:
לפני ההשקה, אנתרופיק הציגה עמדת בטיחות מפורטת במיוחד:
הפריצה המהירה ערערה את הנתונים האלה. מערכת בטיחות שהוסמכה באלפי שעות של בדיקות, נעקפה על ידי חוקר בודד תוך יום, בטכניקות של הנדסה חברתית ולא בפרצת תוכנה .
האירוע בפייבל 5 רחוק מלהיות מקרה בודד:
מתחת לפני השטח, מה שאנחנו רואים הוא שינוי מתודולוגי: מודלים פורצים מודלים. במקום ליצור פרומפטי "קסם" ידניים, פליני משגר סוכן AI אחד כדי לפרוץ מודל אחר. גישה סוכנית (Agentic) ורב-שלבית זו הוכחה כיע בהרבה יותר נגד סיווגי בטיחות, שאומנו בעיקר נגד מתקפות פרומפט סטטיות .
חברת אבטחת המידע Repello ציינה בניתוח שלה לשנת 2026 שהמתקפות המסוכנות ביותר הן כבר לא פרומפטים בודדים, אלא "רצפים יריביים רבי-צעדים שמתקדמים דרך צעדי ביניים תמימים למראית עין" – תיאור שתואם בדיוק את מסגרת "ציד הלהקה" .
הפריצה לפייבל 5 אינה הוכחה לכך שהבטיחות של אנתרופיק הייתה "חלולה", אבל היא מעלה שאלות לא נוחות על יכולת ההרחבה של שיטות האבטחה. מעל 1,000 שעות של בדיקות על ידי ארגונים מקצועיים לא מצאו את מה שחוקר עצמאי אחד חשף בפחות מיום. הפער מרמז שתוכניות הסמכה נוכחיות, קפדניות ככל שיהיו, עלולות לייצג בחסר את המגוון האמיתי של היצירתיות היריבית – במיוחד מול גישות סוכניות, רב-שלביות ובהשראת הנדסה חברתית.
הדילמה ברורה: אם גדרות האבטחה של מודל מספיק חזקות לעמוד בבדיקות מחמירות של חודשים, אבל מתמוטטות מול מתקפה מתואמת של מספר סוכני בינה מלאכותית, מה באמת אומר "מאובטח"? המהירות והחזרתיות של תבנית פליני, שחוצה חברות וארכיטקטורות, מרמזות שהאתגר הוא לא של מודל ספציפי – אלא של כל הפרדיגמה הנוכחית של סיווגי בטיחות מבוססי פרומפטים.
Comments
0 comments