Forskare vid Cornell Tech har upptäckt att AI agenter för djupgående efterforskning är mycket sårbara för en enkel attack kallad WARP. Attacken lyckas eftersom AI agenterna hämtar samma sidor med användargenererat innehåll för upp till 48 % av alla relaterade sökningar.

Create a landscape editorial hero image for this Studio Global article: What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or f. Article summary: A new Cornell Tech preprint (Zhang, Triedman, and Shmatikov) demonstrates that deep-research AI agents are highly vulnerable to a simple attack called **WARP (Web Agent Retrieval Poisoning)**. A single short comment, as . Topic tags: general, academic, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject ""We show that a tiny snippet—just 13 words—of retrieved text on a UGC website like Reddit, Wikipedia, Quora, or Facebook can change AI agents to output spam / scam content pretty c" source context "It Is Trivially Easy to Use Reddit to Manipulate AI Search, Research ..." Reference image 2: visual
Nästa gång du ber ett AI-verktyg om tips på den bästa dejtingappen eller hur du säger upp en prenumeration kan svaret vara planterat av en bedragare med hjälp av inte mer än en enda mening gömd i en Reddit-kommentar. En ny forskningsrapport från Cornell Tech, författad av Tingwei Zhang, Harold Triedman och Vitaly Shmatikov, visar att avancerade AI-agenter för djupgående efterforskning är alarmerande lätta att manipulera genom en attack som forskarna kallar WARP, eller Web Agent Retrieval Poisoning .
AI-agenter som STORM, Co-STORM och OmniThink arbetar genom att ställa många relaterade sökfrågor och sedan sammanställa den information de hittar till en omfattande rapport. Cornell-forskarna upptäckte en kritisk svaghet: dessa agenter är överväldigande beroende av användargenererat innehåll. Mellan 54 % och 71 % av alla webbadresser som hämtas under en forskningssession kommer från plattformar för användargenererat innehåll, där Reddit och Wikipedia är de mest använda källorna .
Denna koncentration skapar en sårbarhet som är lätt att utnyttja. En angripare kan helt enkelt posta en skräddarsydd kommentar i en befintlig, populär Reddit-tråd – eller diskret redigera en Wikipedia-sida – med målet att främja en specifik produkt, tjänst eller ett företag. Eftersom agenterna gång på gång hämtar samma högt rankade sidor med användargenererat innehåll för många olika sökningar inom ett ämnesområde, räcker det med att förgifta en enda sida för att påverka agentens hela forskningsunderlag .
Resultaten är slående i sin effektivitet. Studien fann att en förgiftad text, så kort som 13 ord, var tillräcklig för att uppnå en omnämningsfrekvens på 38 % till 62 %. Detta innebär att angriparens mål direkt citerades i agentens slutgiltiga svar i den andelen av fallen. Forskningen bekräftar att denna effektivitet var konsekvent över flera olika frågekluster och olika underliggande agentarkitekturer, vilket visar att sårbarheten är strukturell och inte begränsad till ett enskilt system .
Attacken gör inte att rapporten i sin helhet framstår som osammanhängande eller av låg kvalitet. Den injicerade texten smälter in på ett trovärdigt sätt med legitimt innehåll, vilket gör den subtila marknadsföringen av en bluffprodukt svår att upptäcka för både användare och automatiserade filter .
Kärnan i problemet är överlappning i informationshämtningen. Forskarna observerade att samma Reddit-sidor dök upp i sökresultaten för upp till 48 % av alla relaterade frågor inom ett enda ämneskluster. Det betyder att om man förgiftar en enda välbesökt Reddit-tråd kan man påverka nästan hälften av alla användares frågor på det ämnet, oavsett om det gäller "bästa vägassistansen", "hur man säger upp en prenumeration" eller "topprankade dejtingappar". Denna koncentration förvandlar en enskild svag punkt till en bred sårbarhet .
Forskarteamet testade tre grundläggande försvarsstrategier och fann att var och en antingen var ineffektiv eller kontraproduktiv .
Att helt blockera domäner för användargenererat innehåll stoppar attacken omedelbart genom att ta bort förgiftade Reddit- och Wikipedia-sidor från sökresultaten. Detta försvar är dock en bot som är värre än själva sjukdomen: plattformar för användargenererat innehåll erbjuder den rika, detaljerade och erfarenhetsbaserade information som gör AI-agenter för djupgående efterforskning värdefulla från första början. Att ta bort dem gör agenterna oförmögna att producera de grundliga rapporter som användare förväntar sig .
Att använda agentens egen språkmodell för att granska källor innan informationen hämtas kan ibland fånga uppenbart förgiftat innehåll, men är fundamentalt opålitligt. En välskriven bit förgiftad text, författad i samma ton som omgivande legitima kommentarer, undgår dessa kontroller med lätthet. Metoden medför också betydande fördröjning och kostnad utan att ge en proportionerlig säkerhetsvinst .
Att tillämpa trovärdighetskontroller på slutresultatet kan flagga vissa extrema eller logiskt inkonsekventa rekommendationer. Problemet är att WARP-attacker är designade för att vara subtila. Den förgiftade texten är kort, kontextuellt anpassad och försämrar inte rapportens övergripande kvalitet. Slutdokumentet passerar trovärdighetsgranskningar utan uppenbara varningsflaggor, trots att det nu i tysthet rekommenderar en produkt som angriparen har valt .
Studiens slutsats är dyster. Sårbarheten är inte en mjukvarubugg som kan åtgärdas; den är en fundamental konsekvens av hur dessa agenter är designade att fungera. Deras tunga beroende av en liten uppsättning ofta återkommande sidor med användargenererat innehåll skapar en koncentrerad och exploaterbar attackyta som inget nuvarande försvar kan täppa till utan att också förstöra agenternas huvudfunktionalitet .
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Forskare vid Cornell Tech har upptäckt att AI agenter för djupgående efterforskning är mycket sårbara för en enkel attack kallad WARP.
Forskare vid Cornell Tech har upptäckt att AI agenter för djupgående efterforskning är mycket sårbara för en enkel attack kallad WARP. Attacken lyckas eftersom AI agenterna hämtar samma sidor med användargenererat innehåll för upp till 48 % av alla relaterade sökningar.
Loading comments...
Comments
0 comments