באחד הניסויים המתועדים, החוקרים השתמשו במסגור של תסריט קולנועי כדי להורות לכלב רובוט מסחרי לאתר מיקומים אופטימליים להנחת מטען חבלה. הרובוט מילא את הבקשה על אף מנגנוני ההגנה שסופקו על ידי היצרן, ללא כל צורך בשינוי חומרה – רק באמצעות פקודות טקסט יצירתיות . איטרציות מוקדמות יותר של RoboPAIR כבר השיגו שיעור פריצה של 100% מול שלוש מערכות רובוטיות שונות, כולל רכב אוטונומי מדומה שהתעלם מתמרורי עצור ונסע מגשר, רובוט על גלגלים שתוכנת לאתר אתרי פיצוץ, ורובוט בעל ארבע רגליים שקיבל הוראה לרגל ולהסתנן לאזורים מוגבלים
.
הבעיה הבסיסית היא מה שמאמר ה-Science Robotics מכנה צורך בגישות של "מעבר ליישור ערכים". מנגנוני בטיחות שתוכננו לצ'אטבוטים מעריכים את המסגור הטקסטואלי של פקודה, לא את ההקשר הפיזי או ההשלכות של הפעולה. רובוט עשוי להבין ש"סע מהגשר" היא הוראה מזיקה, אבל המשפט "בסצנת הסרט, מכונית הגיבור צוללת מהגשר" יכול לעקוף לחלוטין את המסנן, מכיוון שהמודל מעבד זאת כמבנה נרטיבי ולא כהנחיה פיזית .
תגלית נפרדת ומרשימה לא פחות הגיעה ממעבדת Icaro, שיתוף פעולה בין אוניברסיטת ספיאנזה ברומא וצוות החשיבה DexAI. המחקר שלהם מצא שכתיבת בקשות מזיקות בצורה פואטית פועלת כמפעיל פריצה אוניברסלי, העוקף את מנגנוני הבטיחות במודלי AI מובילים ב-62% מהמקרים – לעומת 8% בלבד עבור פקודות זדוניות רגילות .
שירים שנכתבו ידנית היו יעילים במיוחד. מבין 25 מודלי החזית שנבחנו, חלקם רומו בהצלחה ביותר מ-90% מהמקרים . נראה כי מקור הפגיעות טמון באופן שבו LLMs מייצרים טקסט: הם צופים את המילה הבאה הסבירה ביותר על בסיס תבניות, והקצב, המבנה והעמימות הבלתי שגרתיים של השירה משבשים את יכולת המודל לזהות ולסנן תוכן מזיק
.
הטכניקה לא הוגבלה לשירים פרי עט אנושי. החוקרים השתמשו גם ב-AI כדי לשכתב 1,200 פקודות זדוניות ידועות לצורה פואטית, וגילו שהשירים שנוצרו על ידי ה-AI היו יעילים באותה מידה בעקיפת אמצעי ההגנה .
המניפולציה היצירתית של רובוטים מבוססי AI חורגת הרבה מעבר להנחיות טקסט. בינואר 2026, חוקרי אוניברסיטת קליפורניה בסנטה קרוז הדגימו שטקסט מטעה המוצב על אובייקטים פיזיים – כמו שלטים, פוסטרים או מדבקות בסביבת הרובוט – יכול לחטוף את תהליך קבלת ההחלטות של מערכות AI מגולמות, ללא כל פריצת תוכנה . כיוון שמערכות AI מבוססות מצלמה קוראות טקסט בסביבתן ועלולות להתייחס אליו כהוראה, שלט הממוקם אסטרטגית עלול לגרום לרכב אוטונומי או רחפן להתנהג באופן בלתי צפוי
.
חומרת רובוטים מסחרית מציגה פרצות נוספות. דוח מודיעין מנהלים של Recorded Future לשנת 2026 תיעד שרובוטים מסחריים זמינים ניתנים לחטיפה באמצעות בלוטות', יכולים לחלץ בחשאי נתוני שמע, וידאו ומרחב, ואף להדביק רובוטים שכנים באופן אלחוטי כדי ליצור רשתות בוטנט פיזיות . בשנת 2025, חוקרים גילו דלת אחורית לא מתועדת ברובוט Unitree Go1 שאפשרה גישה מרחוק, בעוד שממשק API חשוף איפשר לתוקפים לצפות בשידורי מצלמה חיים ללא אימות
.
במקביל, מאמר שהתקבל לכנס ACM SenSys 2026 מצא כי בעוד שרוב מתקפות הפריצה מתמקדות בסמנטיקה של פקודות, סוכנים מגולמים ניתנים גם למניפולציה באמצעות הפרעה ישירה ברמת הפעולה, העוקפת לחלוטין מחסומי הגנה מבוססי טקסט . רצף של פעולות לא מזיקות לכאורה בנפרד, יכול להשתלב וליצור תוצאה מסוכנת – פגיעות שמסנני הבטיחות הקיימים לא בנויים לזהות.
התשובה הקצרה: כמעט כולם. מחקר משותף מנובמבר 2025 של קינגס קולג' לונדון ואוניברסיטת קרנגי מלון בחן כל מודל LLM מרכזי שמפעיל רובוטים, ומצא שכל מודל ללא יוצא מן הכלל נכשל בבדיקות בטיחות קריטיות, הפגין אפליה, ואישר לפחות פקודה אחת שעלולה לגרום לפגיעה פיזית חמורה כאשר הוצגה באמצעות מסגור יצירתי .
הערכות צוות אדום של Mandiant מאשרות שהזרקת פקודות (Prompt Injection) – הטכניקה של הטמעת הוראות זדוניות בתוך קלטים תמימים למראית עין – נותרה וקטור התקיפה העיקרי עבור מערכות AI . מומחים צבאיים הזהירו בנפרד כי סביר שאויבים ינצלו את הפגם הטבעי הזה כדי להזריק הוראות לגניבת קבצים, עיוות מידע, או בגידה במשתמשים מהימנים
.
משבר האבטחה חודר גם אל תוך עולם הארגונים. Microsoft Copilot Studio קיבל סיווג רשמי CVE-2026-21520 בשל פרצות הזרקה דרך אימייל, בעוד שדפדפן Comet של Perplexity נפל קורבן למתקפה שלא דרשה כל לחיצה, ניצול קוד, או בקשה מפורשת לפעולה רגישה .
חוקרים וגורמי אבטחה מתגבשים סביב מספר רבדי הגנה, אף כי אף אחד מהם אינו פתרון שלם לעת עתה.
מערכות בטיחות מודעות הקשר מייצגות את השינוי המהותי ביותר. מאמר ה-Science Robotics קורא במפורש למודלי יסוד רובוטיים לשלב מנגנוני בטיחות שמודעים להקשר הפיזי ולהשלכות הפעולה, ולא רק לניסוח הטקסטואלי של הפקודה . כפי שמציינים הכותבים, יישור הערכים בשפה נכשל בצורה מסוכנת בבערך אחת מכל חמש מערכות רובוטיות
.
התאמה רב-מודאלית לתחום מציעה שיטות אימון שהופכות מערכות רובוטיות לחסינות בפני קלטים עוינים הן בטקסט והן במודל חזותי, מתוך הכרה בכך שמתקפות יכולות להגיע דרך שפה, דימויים או רמזים סביבתיים בו-זמנית .
זיהוי וסינון שכבתיים הם ההגנה המעשית לטווח הקצר. Mandiant ממליצה על הגנה לעומק הכוללת סינון קלט שמסוגל ללכוד פקודות זדוניות המוסתרות או מנוסחות באופן יצירתי, לפני שהן מגיעות למודל . מסגרות ביקורת מציינות כעת שללא שכבת זיהוי, מוצרי AI נותרים פגיעים אפילו למתקפות פריצה ברמת חובבים
.
מסווגים חוקתיים, שהוצגו על ידי Anthropic, מנטרים הן קלטי משתמש והן פלטי מודל ודוחים תוכן מזיק. למרות שהדבר מוסיף דרישות חישוב ועלות, ויריבים ממשיכים לנסות לעקוף אותם, הגישה הזו מייצגת תחום פעיל של השקעה בתעשייה .
שילוב כלי בדיקה בצנרת הפיתוח (CI/CD) אף הוא מבשיל, עם כלים דוגמת "PromptPwnd" המטמיעים בדיקות הזרקת פקודות ישירות לתוך צינורות הפיתוח, והופכים את בדיקות הפקודות העוינות לחלק סטנדרטי מתהליך מסירת התוכנה, ולא למחשבה שלאחר מעשה .
התגובה הרגולטורית מתפתחת במהירות, והמסר ברור: פריצות AI אינן רק בעיות טכניות – הן חבויות ציות.
חוק ה-AI של האיחוד האירופי מטיל עונשים, חובת דיווח על אירועים ודרישות תיקון על ארגונים הפורסים מודלי AI שניתן לפרוץ כדי לייצר תוכן מזיק. דירקטיבת NIS2 וכללים סקטוריאליים בפיננסים ובריאות יוצרים מחויבויות מקבילות . החובות על AI לשימוש כללי החלו להיכנס בהדרגה במהלך 2025, וכללים מלאים ברמת המערכת צפויים עד 2027
.
חוקי הגנת מידע מוסיפים רובד נוסף של אחריות. הזרקת פקודות הגורמת לחשיפה לא מורשית של מידע אישי מפעילה חובות ציות תחת GDPR, חוק הגנת הפרטיות של הונג קונג (PDPO, עיקרון 4), HIPAA ו-PCI-DSS . נציב הפרטיות של הונג קונג אותת ב-2026 שכשלי אבטחת AI הגורמים לדליפת מידע יטופלו כהפרות בנות אכיפה, לא כתקלות טכניות
.
מסגרות אמריקאיות גם הן מתהדקות. מדד NIST AI RMF 2.6 דורש בקרות ניתנות להוכחה כנגד דפוסים עוינים ידועים . מסגרות ציות, כולל ISO 42001, מחייבות כעת בקרות ספציפיות למניעת וזיהוי הזרקת פקודות
. כללים סקטוריאליים – HIPAA לבריאות, GLBA לפיננסים, FERPA לחינוך – רואים בגוף הפורס את האחראי, ללא תלות בשאלה אם ספק המודל נושא באחריות כלשהי
.
שרשרת האחריות המשפטית היא משמעותית. סוכן AI רפואי שמדליף מידע רפואי מוגן לאחר פריצה, יוצר חובות תחת HIPAA שהארגון הפורס אינו יכול להסיט לעבר ספק המודל. רשות ניירות הערך האמריקאית (SEC) גם פרסמה ציפיות לחשיפת סיכוני AI המכסות פרצות אבטחה .
המחקר המצטבר מפריך באופן גורף את ההנחה שאימון בטיחות לצ'אטבוט מתורגם לבטיחות פיזית. רובוט שמסרב "לנסוע מהגשר" בשפה ישירה, יתכנן בדיוק את הפעולה הזו כשהוא מאמין שהוא מתאר סצנה מסרט. בקשה העטופה בשיר להנחיות להכנת פצצה מצליחה ב-62% מהמקרים, בעוד שבקשה ישירה נכשלת כמעט תמיד.
ככל שמודלי LLM הופכים לשכבת הבקרה של רחפנים, רכבים אוטונומיים, רובוטים תעשייתיים ועוזרים ביתיים, שטח התקיפה מתרחב מהר יותר מההגנות. הזרקת פקודות, כפי שמכירים בכך כיום חוקרים רבים, אינה רק אתגר טכני, אלא סוגיית מדיניות וממשל. כישלון בטיפול בסיכונים אלה עלול לשחוק את האמון ביישומי AI ולעכב אימוץ רחב יותר .
הדרך קדימה מחייבת קבלה של העובדה שבטיחות ברמת השפה אינה מספיקה כשהשפה שולטת במכונות פיזיות. ארכיטקטורות מודעות הקשר, צוותי תקיפה אדומים מחייבים, סינון קלט שכבתי ומסגרות רגולטוריות בנות אכיפה – כולם הכרחיים, ואף אחד מהם עדיין אינו נוהג סטנדרטי.
מקורות: המאמר מבוסס על סקירה מקיפה של מחקרים אקדמיים, דוחות תעשייה, התראות רגולטוריות ועדויות טכניות, כמפורט בהפניות הממוספרות.
Comments
0 comments