AnswersPublished2 weeks agoLast edited 2 weeks ago12 sources

En 13 ord lång Reddit-kommentar kan lura AI-agenter att rekommendera bluffar

Forskare vid Cornell Tech har upptäckt att AI agenter för djupgående efterforskning är mycket sårbara för en enkel attack kallad WARP. Attacken lyckas eftersom AI agenterna hämtar samma sidor med användargenererat innehåll för upp till 48 % av alla relaterade sökningar.

Search & fact-check with Studio Global AI Browse more Trending pages

453K0

AI security warning concept showing a digital brain surrounded by poison symbols and red alert indicators, representing the WARP attack on deep-research agents. — What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or fThe WARP attack exploits a structural vulnerability: AI deep-research agents' heavy reliance on frequently retrieved Reddit and Wikipedia pages. (Image: Studio Global / AI-generated)
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or f. Article summary: A new Cornell Tech preprint (Zhang, Triedman, and Shmatikov) demonstrates that deep-research AI agents are highly vulnerable to a simple attack called **WARP (Web Agent Retrieval Poisoning)**. A single short comment, as . Topic tags: general, academic, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject ""We show that a tiny snippet—just 13 words—of retrieved text on a UGC website like Reddit, Wikipedia, Quora, or Facebook can change AI agents to output spam / scam content pretty c" source context "It Is Trivially Easy to Use Reddit to Manipulate AI Search, Research ..." Reference image 2: visual
openai.com

Nästa gång du ber ett AI-verktyg om tips på den bästa dejtingappen eller hur du säger upp en prenumeration kan svaret vara planterat av en bedragare med hjälp av inte mer än en enda mening gömd i en Reddit-kommentar. En ny forskningsrapport från Cornell Tech, författad av Tingwei Zhang, Harold Triedman och Vitaly Shmatikov, visar att avancerade AI-agenter för djupgående efterforskning är alarmerande lätta att manipulera genom en attack som forskarna kallar WARP, eller Web Agent Retrieval Poisoning .

Så fungerar WARP-attacken

AI-agenter som STORM, Co-STORM och OmniThink arbetar genom att ställa många relaterade sökfrågor och sedan sammanställa den information de hittar till en omfattande rapport. Cornell-forskarna upptäckte en kritisk svaghet: dessa agenter är överväldigande beroende av användargenererat innehåll. Mellan 54 % och 71 % av alla webbadresser som hämtas under en forskningssession kommer från plattformar för användargenererat innehåll, där Reddit och Wikipedia är de mest använda källorna .

Denna koncentration skapar en sårbarhet som är lätt att utnyttja. En angripare kan helt enkelt posta en skräddarsydd kommentar i en befintlig, populär Reddit-tråd – eller diskret redigera en Wikipedia-sida – med målet att främja en specifik produkt, tjänst eller ett företag. Eftersom agenterna gång på gång hämtar samma högt rankade sidor med användargenererat innehåll för många olika sökningar inom ett ämnesområde, räcker det med att förgifta en enda sida för att påverka agentens hela forskningsunderlag .

Minimal ansträngning, hög träffsäkerhet

Resultaten är slående i sin effektivitet. Studien fann att en förgiftad text, så kort som 13 ord, var tillräcklig för att uppnå en omnämningsfrekvens på 38 % till 62 %. Detta innebär att angriparens mål direkt citerades i agentens slutgiltiga svar i den andelen av fallen. Forskningen bekräftar att denna effektivitet var konsekvent över flera olika frågekluster och olika underliggande agentarkitekturer, vilket visar att sårbarheten är strukturell och inte begränsad till ett enskilt system .

Attacken gör inte att rapporten i sin helhet framstår som osammanhängande eller av låg kvalitet. Den injicerade texten smälter in på ett trovärdigt sätt med legitimt innehåll, vilket gör den subtila marknadsföringen av en bluffprodukt svår att upptäcka för både användare och automatiserade filter .

En farligt koncentrerad attackyta

Kärnan i problemet är överlappning i informationshämtningen. Forskarna observerade att samma Reddit-sidor dök upp i sökresultaten för upp till 48 % av alla relaterade frågor inom ett enda ämneskluster. Det betyder att om man förgiftar en enda välbesökt Reddit-tråd kan man påverka nästan hälften av alla användares frågor på det ämnet, oavsett om det gäller "bästa vägassistansen", "hur man säger upp en prenumeration" eller "topprankade dejtingappar". Denna koncentration förvandlar en enskild svag punkt till en bred sårbarhet .

Varför dagens skydd inte fungerar

Forskarteamet testade tre grundläggande försvarsstrategier och fann att var och en antingen var ineffektiv eller kontraproduktiv .

Att helt blockera domäner för användargenererat innehåll stoppar attacken omedelbart genom att ta bort förgiftade Reddit- och Wikipedia-sidor från sökresultaten. Detta försvar är dock en bot som är värre än själva sjukdomen: plattformar för användargenererat innehåll erbjuder den rika, detaljerade och erfarenhetsbaserade information som gör AI-agenter för djupgående efterforskning värdefulla från första början. Att ta bort dem gör agenterna oförmögna att producera de grundliga rapporter som användare förväntar sig .

Att använda agentens egen språkmodell för att granska källor innan informationen hämtas kan ibland fånga uppenbart förgiftat innehåll, men är fundamentalt opålitligt. En välskriven bit förgiftad text, författad i samma ton som omgivande legitima kommentarer, undgår dessa kontroller med lätthet. Metoden medför också betydande fördröjning och kostnad utan att ge en proportionerlig säkerhetsvinst .

Att tillämpa trovärdighetskontroller på slutresultatet kan flagga vissa extrema eller logiskt inkonsekventa rekommendationer. Problemet är att WARP-attacker är designade för att vara subtila. Den förgiftade texten är kort, kontextuellt anpassad och försämrar inte rapportens övergripande kvalitet. Slutdokumentet passerar trovärdighetsgranskningar utan uppenbara varningsflaggor, trots att det nu i tysthet rekommenderar en produkt som angriparen har valt .

Studiens slutsats är dyster. Sårbarheten är inte en mjukvarubugg som kan åtgärdas; den är en fundamental konsekvens av hur dessa agenter är designade att fungera. Deras tunga beroende av en liten uppsättning ofta återkommande sidor med användargenererat innehåll skapar en koncentrerad och exploaterbar attackyta som inget nuvarande försvar kan täppa till utan att också förstöra agenternas huvudfunktionalitet .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Search & fact-check with Studio Global AI

Sources

Comments

0 comments

Loading comments...

← Back to Trending

AnswersPublished2 weeks agoLast edited 2 weeks ago12 sources

En 13 ord lång Reddit-kommentar kan lura AI-agenter att rekommendera bluffar

Search & fact-check with Studio Global AI Browse more Trending pages

453K0

Så fungerar WARP-attacken

Minimal ansträngning, hög träffsäkerhet

En farligt koncentrerad attackyta

Varför dagens skydd inte fungerar

Forskarteamet testade tre grundläggande försvarsstrategier och fann att var och en antingen var ineffektiv eller kontraproduktiv .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

En 13 ord lång Reddit-kommentar kan lura AI-agenter att rekommendera bluffar

Så fungerar WARP-attacken

Minimal ansträngning, hög träffsäkerhet

En farligt koncentrerad attackyta

Varför dagens skydd inte fungerar

Search, cite, and publish your own answer

People also ask

What is the short answer to "En 13 ord lång Reddit-kommentar kan lura AI-agenter att rekommendera bluffar"?

What are the key points to validate first?

Sources

Comments

En 13 ord lång Reddit-kommentar kan lura AI-agenter att rekommendera bluffar

Så fungerar WARP-attacken

Minimal ansträngning, hög träffsäkerhet

En farligt koncentrerad attackyta

Varför dagens skydd inte fungerar

Search, cite, and publish your own answer

People also ask

What is the short answer to "En 13 ord lång Reddit-kommentar kan lura AI-agenter att rekommendera bluffar"?

What are the key points to validate first?

Sources

Comments