Эффективность атаки ошеломляет своей простотой. Вопреки ожиданиям, не требуется писать огромные фейковые обзоры. Исследователи установили, что ядовитого текста длиной всего в 13 слов хватало, чтобы частота упоминаний — доля ответов агента, где фигурировал продукт злоумышленника, — достигала от 38% до 62% .
Самое опасное, что отравленный текст не выглядит как очевидный спам или бессмыслица. Он органично вписывается в контекст легитимных обсуждений, из-за чего ни пользователь, ни автоматические фильтры не видят подвоха. Финальный отчет агента выглядит цельным и качественным, вот только теперь он скрыто рекламирует скам-сервис .
Центральная проблема такой уязвимости — феномен пересекающегося поиска. Анализ показал, что одни и те же страницы Reddit появлялись в выдаче по 48% запросов внутри одного тематического кластера. Иными словами, отравив одну удачно выбранную ветку с обсуждением, скажем, «лучшего эвакуатора», злоумышленник может повлиять на ответы ИИ почти по половине запросов на эту тему. Единственная точка отказа превращается в уязвимость широчайшего спектра действия .
Исследователи протестировали три очевидные стратегии обороны и для каждой обнаружили фатальные недостатки .
Полная блокировка пользовательского контента действительно мгновенно решает проблему: если агенту запретить заходить на Reddit и Wikipedia, отравить его станет невозможно. Однако это лечение оказывается хуже болезни. Именно пользовательский контент обеспечивает ту глубину, детализацию и живой опыт, за которые ценят ИИ-агентов глубокого исследования. Без них их отчеты станут поверхностными и бесполезными .
Предварительная проверка источников языковой моделью иногда отсеивает топорные попытки обмана, но в корне ненадежна. Качественно написанный отравленный текст, который по стилю и содержанию не отличается от обычных комментариев, легко обманывает такие проверки. Добавим к этому рост затрат и времени на обработку при сомнительном выигрыше в безопасности .
Оценка достоверности финального отчета также не дает гарантий. Поскольку атака WARP построена на тонких манипуляциях, а не на грубых нестыковках, итоговый документ успешно проходит любые проверки на логичность. Внедренная реклама не портит общее качество текста и остается незамеченной .
Вывод исследователей неутешителен: уязвимость перед атаками типа WARP — не программный баг, который можно исправить патчем. Это фундаментальное следствие самой архитектуры глубоких исследовательских агентов. Их сильная сторона — опора на небольшое ядро авторитетных, часто запрашиваемых страниц с пользовательским контентом — одновременно является и их ахиллесовой пятой, которую невозможно изолировать, не разрушив саму суть технологии .
Comments
0 comments