חוקרים בקורנל טק חשפו שסוכני AI למחקר מעמיק פגיעים ביותר להתקפה פשוטה המכונה WARP (הרעלת שליפת תוכן לסוכני רשת). ההתקפה מצליחה כיוון שסוכני ה AI שולפים שוב ושוב את אותם עמודי תוכן גולשים (UGC) עבור עד 48% מהשאילתות הקשורות בנושא מסוים.

Create a landscape editorial hero image for this Studio Global article: What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or f. Article summary: A new Cornell Tech preprint (Zhang, Triedman, and Shmatikov) demonstrates that deep-research AI agents are highly vulnerable to a simple attack called **WARP (Web Agent Retrieval Poisoning)**. A single short comment, as . Topic tags: general, academic, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject ""We show that a tiny snippet—just 13 words—of retrieved text on a UGC website like Reddit, Wikipedia, Quora, or Facebook can change AI agents to output spam / scam content pretty c" source context "It Is Trivially Easy to Use Reddit to Manipulate AI Search, Research ..." Reference image 2: visual
בפעם הבאה שתבקשו מסוכן מחקר מבוסס AI המלצה על אפליקציית הכרויות או דרך לבטל מנוי טורדני, קחו בחשבון שהתשובה יכולה להיות נטועה שם על ידי נוכל. כל מה שצריך זה משפט אחד, קצר, שחבוי בתוך תגובה ברדיט. מחקר חדש של חוקרים מ-Cornell Tech מגלה עד כמה קל לבצע מניפולציה על סוכני מחקר דיגיטליים, באמצעות מתקפה שהחוקרים מכנים WARP (Web Agent Retrieval Poisoning – הרעלת שליפת מידע לסוכני רשת) .
סוכני מחקר מעמיק, כמו STORM, Co-STORM ו-OmniThink, פועלים על ידי שליחת שאילתות חיפוש רבות וסינתוז המידע שהתקבל לכדי דוח מקיף. החוקרים זיהו נקודת תורפה קריטית: הסוכנים תלויים באופן מכריע בתוכן גולשים (User-Generated Content). בין 54% ל-71% מכלל הקישורים שהסוכנים שולפים במהלך סשן מחקר מגיעים מפלטפורמות כאלה, כאשר רדיט וויקיפדיה הן המקורות הנפוצים ביותר .
התלות הזו יוצרת משטח תקיפה קל לניצול. התוקף פשוט מפרסם תגובה מתוכננת מראש בשרשור פופולרי קיים ברדיט – או עורך דיסקרטית ערך בוויקיפדיה – במטרה לקדם ישות מסוימת, כמו מוצר מזויף או שירות הונאה. מכיוון שהסוכנים שולפים שוב ושוב את אותם עמודי תוכן גולשים פופולריים עבור שלל שאילתות, דף מורעל אחד יכול לזהם את כל הקשר המחקר של הסוכן .
התוצאות מרשימות ביעילותן. המחקר מצא שטקסט מורעל באורך של 13 מילים בלבד הספיק כדי להשיג שיעורי אזכור של 38% עד 62%. משמעות הדבר היא שמטרת התוקף צוטטה ישירות בפלט הסופי של הסוכן עבור טווח רחב של שאילתות. המאמר המדעי מאשר שיעילות זו נותרה יציבה על פני מקבצי שאילתות שונים וארכיטקטורות סוכנים מגוונות, מה שמוכיח שהפגיעות היא מבנית ואינה מוגבלת רק למערכת אחת .
חשוב לציין, ההתקפה אינה גורמת לדוח הכולל להיראות משובש או באיכות ירודה. הטקסט המוזרק משתלב היטב עם התוכן הלגיטימי, מה שמקשה מאוד, הן על המשתמשים והן על מסננים אוטומטיים, לזהות את הקידום הסמוי של מוצר תרמיתי .
בלב הבעיה עומד מושג חפיפת השליפה. החוקרים הבחינו שאותם דפי רדיט הופיעו בתוצאות החיפוש של עד 48% מהשאילתות הקשורות בתוך אשכול נושא יחיד. המשמעות היא שהרעלת שרשור פופולרי אחד ברדיט יכולה להשפיע על קרוב למחצית מכל שאילתות המשתמשים באותו נושא – החל מ"שירותי הגרירה הטובים ביותר" ועד ל"איך לבטל מנוי" או "אפליקציות ההיכרויות המובילות". ריכוזיות זו הופכת נקודת כשל בודדת לפגיעות רחבת היקף .
צוות המחקר בחן שלוש אסטרטגיות הגנה ישירות וגילה שכל אחת מהן אינה יעילה או פוגעת בעצמה בביצועים .
חסימה מוחלטת של דומיינים של תוכן גולשים עוצרת את ההתקפה באופן מיידי על ידי הסרת דפי רדיט וויקיפדיה הנגועים. אולם, הגנה זו היא תרופה שמזיקה יותר מהמחלה: הפלטפורמות הללו מספקות את המידע העשיר, המפורט והחווייתי שהופך את סוכני המחקר לבעלי ערך. הסרתן תהפוך את הסוכנים לחסרי יכולת להפיק את הדוחות המקיפים שהמשתמשים מצפים להם .
שימוש במודל השפה של הסוכן עצמו לסינון מקורות טרם השליפה עשוי לעיתים לסנן הרעלות בוטות, אך הוא בלתי אמין ביסודו. טקסט מורעל שמנוסח היטב, באותו טון של התגובות הלגיטימיות שמסביב, חומק מהבדיקות הללו בקלות. הגישה הזו גם מוסיפה זמן עיבוד ועלויות משמעותיים, ללא רווח ביטחוני הולם .
יישום בדיקות סבירות על הפלט הסופי יכול לסמן כמה המלצות קיצוניות או לא הגיוניות. הבעיה היא שמתקפות WARP מתוכננות להיות עדינות. ההזרקה המורעלת היא קצרה, מתאימה להקשר, ואינה פוגעת באיכות הכוללת של הדוח. המסמך הסופי עובר סקירות סבירות ללא שום דגל אדום מיידי, גם כשהוא ממליץ חרש על מוצר שבחר התוקף .
שורה תחתונה: לא מדובר בבאג שניתן לתיקון, אלא בפגם יסודי באופן פעולתם של סוכני AI. המחקר מסכם שהתלות הכבדה במספר מצומצם של דפי תוכן גולשים, הנשלפים שוב ושוב, יוצרת משטח תקיפה מרוכז שאין לו פתרון הגנתי קל. כל ניסיון לאטום אותו פוגע אנושות ביכולת של הסוכנים לבצע את תפקידם הבסיסי .
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
חוקרים בקורנל טק חשפו שסוכני AI למחקר מעמיק פגיעים ביותר להתקפה פשוטה המכונה WARP (הרעלת שליפת תוכן לסוכני רשת).
חוקרים בקורנל טק חשפו שסוכני AI למחקר מעמיק פגיעים ביותר להתקפה פשוטה המכונה WARP (הרעלת שליפת תוכן לסוכני רשת). ההתקפה מצליחה כיוון שסוכני ה AI שולפים שוב ושוב את אותם עמודי תוכן גולשים (UGC) עבור עד 48% מהשאילתות הקשורות בנושא מסוים.
ניסויים הראו שטקסט מורעל בן 13 מילים בלבד הספיק כדי להשיג שיעורי אזכור של מטרת ההתקפה שנעו בין 38 ל 62 אחוזים.
Loading comments...
Comments
0 comments