AnswersPublished2 weeks agoLast edited 2 weeks ago12 sources

En 13 ords Reddit-kommentar kan lure KI-agenter til å anbefale svindel

Cornell Tech forskere fant at avanserte KI forskningsagenter er svært sårbare for et enkelt angrep kalt WARP. Angrepet lykkes fordi KI agentene gjenbruker de samme brukerskapte nettsidene for opptil 48 % av relaterte søk.

Search & fact-check with Studio Global AI Browse more Trending pages

453K0

AI security warning concept showing a digital brain surrounded by poison symbols and red alert indicators, representing the WARP attack on deep-research agents. — What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or fThe WARP attack exploits a structural vulnerability: AI deep-research agents' heavy reliance on frequently retrieved Reddit and Wikipedia pages. (Image: Studio Global / AI-generated)
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or f. Article summary: A new Cornell Tech preprint (Zhang, Triedman, and Shmatikov) demonstrates that deep-research AI agents are highly vulnerable to a simple attack called **WARP (Web Agent Retrieval Poisoning)**. A single short comment, as . Topic tags: general, academic, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject ""We show that a tiny snippet—just 13 words—of retrieved text on a UGC website like Reddit, Wikipedia, Quora, or Facebook can change AI agents to output spam / scam content pretty c" source context "It Is Trivially Easy to Use Reddit to Manipulate AI Search, Research ..." Reference image 2: visual
openai.com

Neste gang du spør et KI-forskningsverktøy om den beste datingappen eller hvordan du avslutter et abonnement, kan svaret være plantet av en svindler. Ifølge en ny preprint-studie fra Cornell Tech, utført av Tingwei Zhang, Harold Triedman og Vitaly Shmatikov, er avanserte KI-agenter alarmerende enkle å manipulere gjennom et angrep forskerne kaller WARP (Web Agent Retrieval Poisoning) .

Slik fungerer WARP-angrepet

KI-forskningsagenter som STORM, Co-STORM og OmniThink fungerer ved å kjøre mange relaterte søk og syntetisere informasjon til omfattende rapporter. Cornell-forskerne oppdaget en kritisk svakhet: Agentene er ekstremt avhengige av brukergenerert innhold (UGC). Mellom 54 % og 71 % av alle nettadresser som hentes ut i en forskningsøkt, stammer fra UGC-plattformer, med Reddit og Wikipedia som de mest brukte kildene .

Denne konsentrasjonen skaper en angrepsflate. En angriper kan ganske enkelt poste en spesialskrevet kommentar i en eksisterende, populær Reddit-tråd – eller diskret redigere en Wikipedia-artikkel – med mål om å fremme en bestemt aktør, for eksempel et falskt produkt. Fordi agentene stadig henter de samme høytrangerte UGC-sidene på tvers av mange ulike søk innenfor et tema, kan én enkelt forgiftet side infisere hele forskningskonteksten .

Minimal innsats, svært høy suksessrate

Resultatene er slående effektive. Studien viste at en forgiftet tekst på så lite som 13 ord var nok til å oppnå en nevningsrate på 38 % til 62 %. Dette betyr at angriperens mål ble sitert direkte i KI-ens endelige svar i denne andelen av søkene. Studien bekrefter at denne effektiviteten holdt seg på tvers av ulike spørregrupper og underliggende KI-arkitekturer, noe som viser at sårbarheten er strukturell og ikke begrenset til ett enkelt system .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

En 13 ords Reddit-kommentar kan lure KI-agenter til å anbefale svindel

Slik fungerer WARP-angrepet

Minimal innsats, svært høy suksessrate

Search, cite, and publish your own answer

People also ask

What is the short answer to "En 13 ords Reddit-kommentar kan lure KI-agenter til å anbefale svindel"?

What are the key points to validate first?

Sources

Comments

En farlig konsentrert angrepsflate

Hvorfor nåværende forsvar ikke virker