Výzkumníci z Cornell Tech vyvinuli útok WARP, který zneužívá závislosti AI agentů na uživatelském obsahu z Redditu a Wikipedie. Agenti až v 71 % případů čerpají z uživatelských platforem; jedna otrávená stránka může ovlivnit odpovědi na desítky souvisejících dotazů.

Create a landscape editorial hero image for this Studio Global article: What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or f. Article summary: A new Cornell Tech preprint (Zhang, Triedman, and Shmatikov) demonstrates that deep-research AI agents are highly vulnerable to a simple attack called **WARP (Web Agent Retrieval Poisoning)**. A single short comment, as . Topic tags: general, academic, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject ""We show that a tiny snippet—just 13 words—of retrieved text on a UGC website like Reddit, Wikipedia, Quora, or Facebook can change AI agents to output spam / scam content pretty c" source context "It Is Trivially Easy to Use Reddit to Manipulate AI Search, Research ..." Reference image 2: visual
Když si příště necháte od umělé inteligence vyhledat nejlepší seznamku nebo návod na zrušení předplatného, může být odpověď dílem podvodníka – a stačí mu k tomu jediná, pečlivě formulovaná věta v diskuzi na Redditu. Nová studie z Cornell Tech varuje, že hloubkoví výzkumní AI agenti jsou až znepokojivě snadno manipulovatelní.
Autoři studie – Tingwei Zhang, Harold Triedman a Vitaly Shmatikov – pojmenovali svůj objev WARP (Web Agent Retrieval Poisoning). Jeho princip je překvapivě prostý. Hloubkoví agenti, jako jsou STORM, Co-STORM nebo OmniThink, při vytváření odpovědí masivně spoléhají na obsah vytvářený běžnými uživateli. Podle měření pochází 54 až 71 % všech URL adres, které agenti během rešerše navštíví, právě z platforem jako Reddit nebo Wikipedie .
Právě tato koncentrace zdrojů je Achillovou patou celého systému. Útočník jednoduše vloží krátký komentář do oblíbené Reddit diskuze nebo nenápadně upraví stránku na Wikipedii. Protože agenti opakovaně sahají po stejných vysoce hodnocených zdrojích, dokáže jediná "otrávená" stránka infikovat celý výzkumný kontext agenta napříč mnoha různými dotazy .
Výsledky testování jsou alarmující. Text dlouhý pouhých 13 slov dokázal dosáhnout míry zmínění 38 až 62 %. To znamená, že podvržená entita – například falešný produkt – se objevila přímo ve finálním výstupu AI agenta v tomto rozsahu dotazů. Útok byl účinný napříč různými architekturami agentů, což dokazuje, že nejde o chybu konkrétního systému, ale o hlubší konstrukční slabinu .
Co je obzvlášť znepokojivé: injektovaný text nepůsobí v celkové zprávě nijak podezřele. Nenásilně splývá s legitimním obsahem, takže doporučení podvodné služby je velmi těžké odhalit pouhým okem i automatickými filtry .
Jádrem problému je jev, kterému vědci říkají "překrývání výsledků vyhledávání" (retrieval overlap). Studie ukázala, že stejné Reddit stránky se objevovaly ve výsledcích hledání až u 48 % souvisejících dotazů v rámci jednoho tématu. Pokud tedy útočník otráví jeden frekventovaný Reddit příspěvek, může tím ovlivnit odpovědi na téměř polovinu uživatelských otázek k danému tématu – od "nejlepší asistenční služby" až po "jak zrušit předplatné". Z jednoho bodu selhání se tak stává plošná zranitelnost .
Výzkumný tým otestoval tři přímé obranné strategie a všechny buď selhaly, nebo nadělaly víc škody než užitku :
Blokování celých domén, jako je Reddit nebo Wikipedie, útok spolehlivě zastaví. Je to ale jako léčit bolení hlavy gilotinou – právě uživatelský obsah dává agentům schopnost poskytovat bohaté, detailní a pro lidi užitečné informace. Bez těchto zdrojů by nedokázali vytvářet komplexní zprávy, které od nich uživatelé očekávají.
Prověřování zdrojů jazykovým modelem před jejich stažením sice občas odhalí hrubou manipulaci, ale v zásadě je nespolehlivé. Dobře napsaný kus textu, který stylisticky odpovídá okolním legitimním komentářům, těmito kontrolami snadno projde. Navíc toto řešení výrazně zpomaluje celý proces a zvyšuje náklady, aniž by přineslo odpovídající bezpečnostní záruku.
Kontrola věrohodnosti finálního výstupu dokáže odhalit extrémní nebo logicky nesmyslná doporučení. Problém je, že útok WARP je od základu navržen tak, aby byl subtilní. Krátká, kontextově přiléhavá injekce nezhoršuje celkovou kvalitu zprávy, takže celý dokument projde kontrolou bez jediného varovného signálu – jen nyní tiše doporučuje podvodníkem zvolený produkt.
Závěr studie je střízlivý. Nejedná se o softwarovou chybu, kterou by šlo jednoduše opravit. Zranitelnost je fundamentálním důsledkem samotného návrhu těchto agentů. Jejich silná závislost na malém souboru opakovaně stahovaných uživatelských stránek vytváří koncentrovaný a snadno zneužitelný útočný prostor, který žádná existující obrana nedokáže uzavřít, aniž by zároveň rozbila klíčovou funkčnost agentů .
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Výzkumníci z Cornell Tech vyvinuli útok WARP, který zneužívá závislosti AI agentů na uživatelském obsahu z Redditu a Wikipedie.
Výzkumníci z Cornell Tech vyvinuli útok WARP, který zneužívá závislosti AI agentů na uživatelském obsahu z Redditu a Wikipedie. Agenti až v 71 % případů čerpají z uživatelských platforem; jedna otrávená stránka může ovlivnit odpovědi na desítky souvisejících dotazů.
Loading comments...
Comments
0 comments