What should I do next in practice?

En enkelt Reddit kommentar på 13 ord kan opnå en promoveringsrate på 38 62% på tværs af adskillige forespørgsler.

AnswersPublished2 weeks agoLast edited 2 weeks ago12 sources

13 ord på Reddit kan narre AI-researchassistenter til at anbefale svindel

Cornell Tech forskere har afsløret, at deep research AI agenter er meget sårbare over for et simpelt angreb kaldet WARP. Angrebet lykkes, fordi AI agenter henter de samme brugergenererede sider i op til 48% af alle relaterede søgninger.

Search & fact-check with Studio Global AI Browse more Trending pages

451K0

AI security warning concept showing a digital brain surrounded by poison symbols and red alert indicators, representing the WARP attack on deep-research agents. — What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or fThe WARP attack exploits a structural vulnerability: AI deep-research agents' heavy reliance on frequently retrieved Reddit and Wikipedia pages. (Image: Studio Global / AI-generated)
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or f. Article summary: A new Cornell Tech preprint (Zhang, Triedman, and Shmatikov) demonstrates that deep-research AI agents are highly vulnerable to a simple attack called **WARP (Web Agent Retrieval Poisoning)**. A single short comment, as . Topic tags: general, academic, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject ""We show that a tiny snippet—just 13 words—of retrieved text on a UGC website like Reddit, Wikipedia, Quora, or Facebook can change AI agents to output spam / scam content pretty c" source context "It Is Trivially Easy to Use Reddit to Manipulate AI Search, Research ..." Reference image 2: visual
openai.com

Næste gang du spørger en AI-researchassistent om den bedste datingapp, eller hvordan du opsiger et abonnement, kan svaret være plantet af en svindler. Og det kan gøres med en enkelt sætning gemt i en Reddit-kommentar.

Et nyt forskningsstudie (preprint) fra Cornell Tech af Tingwei Zhang, Harold Triedman og Vitaly Shmatikov viser, at deep-research AI-agenter er alarmerende lette at manipulere gennem et angreb, forskerne kalder WARP (Web Agent Retrieval Poisoning) .

Sådan fungerer WARP-angrebet

Deep-research-agenter som STORM, Co-STORM og OmniThink fungerer ved at udføre mange relaterede søgninger og samle informationen til en omfattende rapport. Forskerne fra Cornell opdagede en kritisk svaghed: Agenterne er ekstremt afhængige af brugergenereret indhold fra platforme som Reddit og Wikipedia. Mellem 54% og 71% af alle URL’er, der hentes under en researchsession, stammer fra den slags platforme .

Denne koncentration skaber en angrebsflade. En angriber indsætter blot en manipuleret kommentar i en eksisterende, populær Reddit-tråd – eller redigerer diskret en Wikipedia-side – med det formål at promovere et specifikt mål, for eksempel et fup-produkt eller en svindeltjeneste. Fordi agenterne gentagne gange henter de samme højt-rangerede sider på tværs af mange forskellige forespørgsler, kan én forgiftet side inficere hele agentens researchkontekst .

Minimal indsats, høj succesrate

Resultaterne er slående i deres effektivitet. Studiet fandt, at manipuleret tekst på helt ned til 13 ord var nok til at opnå en omtalerate på mellem 38% og 62%. Det betyder, at angriberens målprodukt blev citeret direkte i agentens endelige rapport for mellem 38% og 62% af de stillede forespørgsler. Denne effektivitet gjaldt på tværs af flere emneklynger og forskellige agent-arkitekturer, hvilket bekræfter, at sårbarheden er strukturel og ikke begrænset til ét system .

Angrebet får ikke den samlede rapport til at virke usammenhængende eller af lav kvalitet. Den injicerede tekst smelter plausibelt sammen med legitimt indhold, hvilket gør den subtile promovering af et svindelprodukt svær at få øje på – både for brugeren og for automatiske filtre .

En faretruende koncentreret angrebsflade

Kernen i problemet er, hvad forskerne kalder "retrieval overlap" – altså genfindingsoverlap. De observerede, at de samme Reddit-sider dukkede op i søgeresultaterne for op til 48% af relaterede forespørgsler inden for en enkelt emneklynge. Det betyder, at hvis en svindler forgifter én velbesøgt Reddit-tråd, kan det påvirke næsten halvdelen af alle brugerforespørgsler om det pågældende emne – lige fra "bedste vejhjælp" til "hvordan opsiger jeg et abonnement" eller "bedst vurderede datingapps". Denne koncentration gør et enkelt fejlpunkt til en bredspektret sårbarhed .

Hvorfor nuværende forsvar ikke virker

Forskerholdet testede tre ligefremme forsvarsstrategier og fandt hver af dem enten ineffektive eller selvdestruktive .

Fuldstændig blokering af brugergenererede domæner stopper angrebet øjeblikkeligt. Men dette forsvar er værre end sygdommen: Brugergenereret indhold leverer de rige, detaljerede og erfaringsbaserede oplysninger, der gør deep-research-agenter værdifulde. Fjerner man dem, bliver agenterne ude af stand til at producere de grundige rapporter, brugerne forventer .

Brug af agentens egen sprogmodel til at screene kilder inden data hentes, kan af og til fange åbenlys forgiftning, men er fundamentalt upålideligt. En velformuleret, manipuleret tekst, der er skrevet i samme tone som de omkringliggende legitime kommentarer, undslipper let disse kontroller. Metoden tilføjer også betydelig ventetid og omkostninger uden en tilsvarende sikkerhedsmæssig gevinst .

Plausibilitetstjek af det endelige output kan flagge nogle ekstreme eller logisk inkonsistente anbefalinger. Problemet er, at WARP-angreb er designet til at være subtile. Den forgiftede indsprøjtning er kort, passer ind i konteksten og forringer ikke rapportens overordnede kvalitet. Det endelige dokument passerer derfor plausibilitetsvurderinger uden tydelige advarselslamper, selvom det nu i stilhed anbefaler et angribervalgt produkt .

Studiets konklusion er nøgtern. Sårbarheden er ikke en softwarefejl, der kan patches; den er en fundamental konsekvens af, hvordan disse agenter er designet til at fungere. Deres massive afhængighed af et lille sæt genfundne sider med brugerindhold skaber en koncentreret, udnyttelig angrebsflade, som intet eksisterende forsvar kan lukke uden samtidig at ødelægge agenternes kernefunktionalitet .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Search & fact-check with Studio Global AI

Sources

Comments

0 comments

Loading comments...

← Back to Trending

AnswersPublished2 weeks agoLast edited 2 weeks ago12 sources

13 ord på Reddit kan narre AI-researchassistenter til at anbefale svindel

Search & fact-check with Studio Global AI Browse more Trending pages

451K0

Sådan fungerer WARP-angrebet

Minimal indsats, høj succesrate

En faretruende koncentreret angrebsflade

Hvorfor nuværende forsvar ikke virker

Forskerholdet testede tre ligefremme forsvarsstrategier og fandt hver af dem enten ineffektive eller selvdestruktive .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

13 ord på Reddit kan narre AI-researchassistenter til at anbefale svindel

Sådan fungerer WARP-angrebet

Minimal indsats, høj succesrate

En faretruende koncentreret angrebsflade

Hvorfor nuværende forsvar ikke virker

Search, cite, and publish your own answer

People also ask

What is the short answer to "13 ord på Reddit kan narre AI-researchassistenter til at anbefale svindel"?

What are the key points to validate first?

What should I do next in practice?

Sources

Comments

13 ord på Reddit kan narre AI-researchassistenter til at anbefale svindel

Sådan fungerer WARP-angrebet

Minimal indsats, høj succesrate

En faretruende koncentreret angrebsflade

Hvorfor nuværende forsvar ikke virker

Search, cite, and publish your own answer

People also ask

What is the short answer to "13 ord på Reddit kan narre AI-researchassistenter til at anbefale svindel"?

What are the key points to validate first?

What should I do next in practice?

Sources

Comments