AnswersPublished2 weeks agoLast edited 2 weeks ago12 sources

Tylko 13 słów na Reddicie może oszukać AI i zmusić je do polecania oszustw

Naukowcy z Cornell Tech wykazali, że agenci AI do badań internetowych (deep research) są wyjątkowo podatni na prosty atak o nazwie WARP. Atak kończy się sukcesem, ponieważ agenci AI pobierają te same strony z treściami od użytkowników nawet w 48% powiązanych ze sobą zapytań.

Search & fact-check with Studio Global AI Browse more Trending pages

453K0

AI security warning concept showing a digital brain surrounded by poison symbols and red alert indicators, representing the WARP attack on deep-research agents. — What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or fThe WARP attack exploits a structural vulnerability: AI deep-research agents' heavy reliance on frequently retrieved Reddit and Wikipedia pages. (Image: Studio Global / AI-generated)
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or f. Article summary: A new Cornell Tech preprint (Zhang, Triedman, and Shmatikov) demonstrates that deep-research AI agents are highly vulnerable to a simple attack called **WARP (Web Agent Retrieval Poisoning)**. A single short comment, as . Topic tags: general, academic, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject ""We show that a tiny snippet—just 13 words—of retrieved text on a UGC website like Reddit, Wikipedia, Quora, or Facebook can change AI agents to output spam / scam content pretty c" source context "It Is Trivially Easy to Use Reddit to Manipulate AI Search, Research ..." Reference image 2: visual
openai.com

Gdy następnym razem zapytasz narzędzie AI o najlepszą aplikację randkową lub jak anulować subskrypcję, odpowiedź może być już spreparowana. Wystarczy jeden sprytnie napisany komentarz w serwisie Reddit. Nowa publikacja naukowców z Cornell Tech – Tingwei Zhanga, Harolda Triedmana i Vitaly’ego Shmatikova – dowodzi, że agenci AI typu deep research są alarmująco łatwi w manipulacji za pomocą ataku nazwanego przez badaczy WARP, czyli Web Agent Retrieval Poisoning .

Jak działa atak WARP

Agenci badawczy tacy jak STORM, Co-STORM czy OmniThink działają poprzez zadawanie wielu powiązanych zapytań i syntezę zebranych informacji w kompleksowy raport. Naukowcy z Cornell odkryli ich piętę achillesową: agenci ci w przeważającej mierze polegają na treściach tworzonych przez użytkowników (UGC). Od 54% do 71% wszystkich adresów URL pobieranych podczas sesji badawczej pochodzi z platform UGC, a Reddit i Wikipedia to najczęściej konsultowane źródła .

Ta koncentracja tworzy pole do ataku. Oszust po prostu zamieszcza spreparowany komentarz w istniejącym, popularnym wątku na Reddicie – lub dyskretnie edytuje stronę na Wikipedii – w celu wypromowania konkretnego podmiotu, na przykład fałszywego produktu lub nieuczciwej usługi. Ponieważ agenci wielokrotnie pobierają te same, wysoko notowane strony UGC dla wielu różnych zapytań na dany temat, pojedyncza zatruta strona może zainfekować cały kontekst badawczy agenta .

Minimalny wysiłek, wysoka skuteczność

Wyniki badań są uderzające. Okazało się, że zatruty tekst o długości zaledwie 13 słów wystarczył, aby osiągnąć wskaźnik wzmiankowania na poziomie od 38% do 62%. Oznacza to, że wskazany przez atakującego podmiot był bezpośrednio cytowany w końcowym raporcie AI dla tego zakresu zapytań. Badanie potwierdza tę skuteczność w wielu klastrach zapytań i dla różnych architektur agentów, co dowodzi, że nie jest to luka w pojedynczym systemie, a strukturalna słabość całej technologii .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Search & fact-check with Studio Global AI

Sources

Comments

0 comments

Loading comments...

← Back to Trending

AnswersPublished2 weeks agoLast edited 2 weeks ago12 sources

Tylko 13 słów na Reddicie może oszukać AI i zmusić je do polecania oszustw

Search & fact-check with Studio Global AI Browse more Trending pages

453K0

Jak działa atak WARP

Minimalny wysiłek, wysoka skuteczność

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tylko 13 słów na Reddicie może oszukać AI i zmusić je do polecania oszustw

Jak działa atak WARP

Minimalny wysiłek, wysoka skuteczność

Search, cite, and publish your own answer

People also ask

What is the short answer to "Tylko 13 słów na Reddicie może oszukać AI i zmusić je do polecania oszustw"?

What are the key points to validate first?

Sources

Comments

Tylko 13 słów na Reddicie może oszukać AI i zmusić je do polecania oszustw

Jak działa atak WARP

Minimalny wysiłek, wysoka skuteczność

Search, cite, and publish your own answer

People also ask

What is the short answer to "Tylko 13 słów na Reddicie może oszukać AI i zmusić je do polecania oszustw"?

What are the key points to validate first?

Sources

Comments

Niebezpiecznie skoncentrowana powierzchnia ataku

Dlaczego obecne zabezpieczenia zawodzą