AnswersPublished2 weeks agoLast edited 2 weeks ago12 sources

Як один коментар на Reddit отруює розумних ШІ-помічників

Дослідники Cornell Tech довели, що агенти глибокого дослідження ШІ надзвичайно вразливі до атаки WARP, яка використовує отруєний користувацький контент. Атака є успішною, тому що ШІ агенти повторно звертаються до одних і тих самих сторінок із користувацьким контентом (UGC) у понад 48% пов'язаних запитів.

Search & fact-check with Studio Global AI Browse more Trending pages

392K0

AI security warning concept showing a digital brain surrounded by poison symbols and red alert indicators, representing the WARP attack on deep-research agents. — What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or fThe WARP attack exploits a structural vulnerability: AI deep-research agents' heavy reliance on frequently retrieved Reddit and Wikipedia pages. (Image: Studio Global / AI-generated)
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or f. Article summary: A new Cornell Tech preprint (Zhang, Triedman, and Shmatikov) demonstrates that deep-research AI agents are highly vulnerable to a simple attack called **WARP (Web Agent Retrieval Poisoning)**. A single short comment, as . Topic tags: general, academic, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject ""We show that a tiny snippet—just 13 words—of retrieved text on a UGC website like Reddit, Wikipedia, Quora, or Facebook can change AI agents to output spam / scam content pretty c" source context "It Is Trivially Easy to Use Reddit to Manipulate AI Search, Research ..." Reference image 2: visual
openai.com

Наступного разу, коли ви запитаєте в ШІ-помічника, який сервіс для побачень найкращий, як скасувати набридливу підписку чи викликати евакуатор, будьте обережні: відповідь міг підкинути шахрай. Для цього йому знадобилося всього лише сховати коротке речення в коментарі на Reddit.

Новий препринт від Cornell Tech, авторами якого є Тінвей Чжан, Гарольд Трідман і Віталій Шматіков, демонструє, що агентами глибокого дослідження зі штучним інтелектом тривожно легко маніпулювати за допомогою атаки, яку дослідники назвали WARP (Web Agent Retrieval Poisoning — Отруєння пошукової видачі веб-агента) .

Як працює атака WARP

Агенти глибокого дослідження, як-от STORM, Co-STORM та OmniThink, працюють за принципом формування безлічі пошукових запитів на задану тему та синтезу отриманої інформації у великий звіт. Дослідники з Cornell виявили критичне слабке місце: ці асистенти надзвичайно залежні від користувацького контенту (User-Generated Content, UGC). Від 54% до 71% усіх URL-адрес, які вони переглядають під час дослідницької сесії, ведуть на UGC-платформи, причому Reddit та Wikipedia є найчастішими джерелами .

Ця концентрація створює вразливу поверхню для атаки. Зловмиснику достатньо опублікувати спеціально створений коментар у вже популярній гілці на Reddit або ж непомітно відредагувати сторінку у Wikipedia. Мета — просунути якусь цільову сутність, наприклад, фейковий продукт чи шахрайський сервіс. Оскільки агенти постійно повертаються до одних і тих самих високорейтингових UGC-сторінок за різними, але тематично пов'язаними запитами, одна-єдина отруєна сторінка здатна заразити весь дослідницький контекст агента .

Мінімум зусиль — максимум успіху

Ефективність атаки вражає своєю простотою. Дослідження показало, що отруєного тексту завдовжки лише 13 слів було достатньо, щоб досягти частоти згадувань від 38% до 62%. Це означає, що цільова сутність зловмисника прямо цитувалася в остаточному звіті агента для цього діапазону запитів. У препринті підтверджується, що ця результативність зберігалася для різних кластерів запитів і різних архітектур агентів, що свідчить про структурний, а не поодинокий характер вразливості .

Важливо, що атака не робить загальний звіт безглуздим або низькоякісним. Впроваджений текст правдоподібно поєднується з легітимним контентом, що робить непомітне просування шахрайського продукту надзвичайно важким для виявлення як користувачами, так і автоматичними фільтрами .

Небезпечно сконцентрована поверхня атаки

Суть проблеми криється в пошуковому перекритті (retrieval overlap). Дослідники помітили, що одні й ті самі сторінки Reddit з'являлися в пошуковій видачі для аж 48% пов'язаних запитів у межах одного тематичного кластера. Це означає, що отруєння лише однієї популярної гілки на Reddit може вплинути на відповіді майже на половину всіх запитів користувачів на цю тему — від «найкраща служба допомоги на дорозі» до «як скасувати підписку» чи «найкращі додатки для знайомств». Така концентрація перетворює одну точку відмови на широкомасштабну вразливість .

Чому існуючі методи захисту не працюють

Дослідницька група протестувала три прямолінійні стратегії захисту і виявила, що кожна з них або неефективна, або шкодить самому агенту .

Повне блокування UGC-доменів негайно зупиняє атаку, видаляючи з пулу пошуку скомпрометовані сторінки Reddit та Wikipedia. Однак цей захист — ліки, гірші за хворобу: UGC-платформи надають той багатий, детальний та заснований на досвіді контент, який робить агентів глибокого дослідження цінними у першу чергу. Їх видалення позбавляє агентів можливості створювати ґрунтовні звіти, яких очікують користувачі .

Використання мовної моделі агента для попередньої перевірки джерел іноді може виявити очевидне отруєння, але цей метод фундаментально ненадійний. Майстерно створений отруєний текст, написаний у тому ж тоні, що й навколишні легітимні коментарі, легко оминає такі перевірки. До того ж, цей підхід суттєво збільшує затримку та вартість обробки без пропорційного підвищення безпеки .

Застосування перевірок правдоподібності до кінцевого результату може виявити деякі надто екстремальні або логічно суперечливі рекомендації. Проблема в тому, що атаки WARP створені так, щоб бути непомітними. Отруєне вкраплення коротке, контекстуально доречне і не погіршує загальну якість звіту. Кінцевий документ проходить перевірку на правдоподібність без жодних тривожних сигналів, хоча тепер він мовчки рекомендує обраний зловмисником продукт .

Висновок дослідження невтішний. Ця вразливість — не програмна помилка, яку можна виправити «латочкою»; це фундаментальний наслідок того, як спроєктовані ці агенти. Їхня надмірна залежність від невеликого набору постійно використовуваних UGC-сторінок створює концентровану, вразливу до експлуатації поверхню атаки, яку жоден існуючий захист не здатен закрити, не зламавши при цьому основну функціональність самих агентів .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Search & fact-check with Studio Global AI

Sources

Comments

0 comments

Loading comments...

← Back to Trending

AnswersPublished2 weeks agoLast edited 2 weeks ago12 sources

Як один коментар на Reddit отруює розумних ШІ-помічників

Search & fact-check with Studio Global AI Browse more Trending pages

392K0

Як працює атака WARP

Мінімум зусиль — максимум успіху

Небезпечно сконцентрована поверхня атаки

Чому існуючі методи захисту не працюють

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Як один коментар на Reddit отруює розумних ШІ-помічників

Як працює атака WARP

Мінімум зусиль — максимум успіху

Небезпечно сконцентрована поверхня атаки

Чому існуючі методи захисту не працюють

Search, cite, and publish your own answer

People also ask

What is the short answer to "Як один коментар на Reddit отруює розумних ШІ-помічників"?

What are the key points to validate first?

Sources

Comments

Як один коментар на Reddit отруює розумних ШІ-помічників

Як працює атака WARP

Мінімум зусиль — максимум успіху

Небезпечно сконцентрована поверхня атаки

Чому існуючі методи захисту не працюють

Search, cite, and publish your own answer

People also ask

What is the short answer to "Як один коментар на Reddit отруює розумних ШІ-помічників"?

What are the key points to validate first?

Sources

Comments