ОтветыОпубликовано2 недели назадLast edited 2 недели назад12 источники

Как комментарий из 13 слов обманывает ИИ-агентов глубокого исследования

Исследователи Cornell Tech обнаружили, что глубокие исследовательские ИИ агенты крайне уязвимы перед простой атакой под названием WARP. Атака достигает цели, потому что в 48% связанных запросов ИИ агенты постоянно извлекают одни и те же страницы с пользовательским контентом.

Искать и проверять факты с Studio Global AI Смотреть больше популярных страниц

453K0

AI security warning concept showing a digital brain surrounded by poison symbols and red alert indicators, representing the WARP attack on deep-research agents. — What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or fThe WARP attack exploits a structural vulnerability: AI deep-research agents' heavy reliance on frequently retrieved Reddit and Wikipedia pages. (Image: Studio Global / AI-generated)
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or f. Article summary: A new Cornell Tech preprint (Zhang, Triedman, and Shmatikov) demonstrates that deep-research AI agents are highly vulnerable to a simple attack called **WARP (Web Agent Retrieval Poisoning)**. A single short comment, as . Topic tags: general, academic, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject ""We show that a tiny snippet—just 13 words—of retrieved text on a UGC website like Reddit, Wikipedia, Quora, or Facebook can change AI agents to output spam / scam content pretty c" source context "It Is Trivially Easy to Use Reddit to Manipulate AI Search, Research ..." Reference image 2: visual
openai.com

Представьте, что вы спрашиваете у продвинутого искусственного интеллекта, какое приложение для знакомств лучшее, как отменить навязчивую подписку или вызвать надежную службу эвакуации. Ответ, который вы получите, может быть не объективным анализом, а ловко подброшенной рекламой мошенников. Новое исследование Корнелльского технологического института (Cornell Tech) показывает: для этого достаточно всего 13 слов, затерявшихся в комментариях на Reddit .

Ученые Тингвэй Чжан, Гарольд Тридман и Виталий Шматиков описали атаку, которую они назвали WARP (Web Agent Retrieval Poisoning — «Отравление поиска веб-агентов»). Это не просто теоретическая угроза: метод показал пугающую эффективность в реальных экспериментах .

Как работает отравление ИИ-агентов

Системы глубокого исследования, такие как STORM, Co-STORM и OmniThink, работают подобно дотошному аналитику: они делают множество поисковых запросов по теме пользователя, собирают информацию и синтезируют ее в развернутый отчет. Ключевая проблема кроется в их рационе — 54–71% всех просматриваемых ими веб-страниц приходится на платформы с пользовательским контентом (UGC), прежде всего на Reddit и Wikipedia .

Это создает идеальную лазейку для атаки: злоумышленник публикует короткий, тщательно составленный комментарий в уже популярной ветке на Reddit или незаметно редактирует страницу в Wikipedia. Когда ИИ-агент начинает исследовать тему, он раз за разом натыкается на эту «отравленную» страницу, впитывая подброшенную информацию как достоверный источник. Одной зараженной страницы достаточно, чтобы манипулировать результатами десятков запросов от разных пользователей .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Люди также спрашивают

Каков краткий ответ на вопрос «Как комментарий из 13 слов обманывает ИИ-агентов глубокого исследования»?

Исследователи Cornell Tech обнаружили, что глубокие исследовательские ИИ агенты крайне уязвимы перед простой атакой под названием WARP.

Какие ключевые моменты необходимо проверить в первую очередь?

Источники

Comments

0 comments

Loading comments...

Как комментарий из 13 слов обманывает ИИ-агентов глубокого исследования

Как работает отравление ИИ-агентов

Search, cite, and publish your own answer

Люди также спрашивают

Каков краткий ответ на вопрос «Как комментарий из 13 слов обманывает ИИ-агентов глубокого исследования»?

Какие ключевые моменты необходимо проверить в первую очередь?

Источники

Comments

Почему 13 слов работают

Опасная концентрация: одна точка отказа для тысяч тем

Почему существующие защиты не работают

Не баг, а архитектурная особенность