答案已发布2周前Last edited 2周前12 来源

13个字就能骗过AI？康奈尔大学研究揭示深度搜索工具的致命弱点

Q: 首先要验证的关键点是什么？

康奈尔科技校区的研究人员发现，深度搜索AI智能体极易受到一种名为WARP的简单攻击。 该攻击之所以成功，是因为AI智能体在高达48%的相关查询中，都会反复检索相同的用户生成内容页面。

康奈尔科技校区的研究人员发现，深度搜索AI智能体极易受到一种名为WARP的简单攻击。该攻击之所以成功，是因为AI智能体在高达48%的相关查询中，都会反复检索相同的用户生成内容页面。植入短短13个字的投毒文本，就能在38%到62%的查询中，让目标实体或产品被AI写进最终报告。

使用 Studio Global AI 搜索并核查事实浏览更多热门页面

453K0

AI security warning concept showing a digital brain surrounded by poison symbols and red alert indicators, representing the WARP attack on deep-research agents. — What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or fThe WARP attack exploits a structural vulnerability: AI deep-research agents' heavy reliance on frequently retrieved Reddit and Wikipedia pages. (Image: Studio Global / AI-generated)
AI 提示
Create a landscape editorial hero image for this Studio Global article: What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or f. Article summary: A new Cornell Tech preprint (Zhang, Triedman, and Shmatikov) demonstrates that deep-research AI agents are highly vulnerable to a simple attack called **WARP (Web Agent Retrieval Poisoning)**. A single short comment, as . Topic tags: general, academic, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject ""We show that a tiny snippet—just 13 words—of retrieved text on a UGC website like Reddit, Wikipedia, Quora, or Facebook can change AI agents to output spam / scam content pretty c" source context "It Is Trivially Easy to Use Reddit to Manipulate AI Search, Research ..." Reference image 2: visual
openai.com

下次你向AI搜索工具询问“最好的约会应用是哪个”或“如何取消烦人的订阅”时，答案可能已被骗子植入。只需在Reddit评论区藏匿短短一句话。康奈尔科技校区的一篇新论文揭示，深度搜索AI智能体极易被一种名为WARP（Web Agent Retrieval Poisoning，即网络智能体检索投毒） 的攻击所操纵。

WARP攻击是如何运作的

像STORM、Co-STORM和OmniThink这类深度搜索智能体，其工作逻辑是发起一系列相关的搜索查询，然后将检索到的信息整合成一份详尽的报告。康奈尔的研究人员发现了一个关键的弱点：这些智能体严重依赖用户生成内容。在一个研究会话中，它们检索到的所有URL链接中，有54%到71%来自UGC平台，其中Reddit和维基百科是被引用最频繁的来源。

这种集中度就制造了一个可被利用的攻击面。攻击者只需在一个现有的、热度较高的Reddit帖子下发表一条精心设计的评论，或是悄无声息地编辑一条维基百科词条，其目的是推广一个特定的目标实体，比如一个虚假产品或欺诈服务。由于智能体会在某个主题下的大量不同查询中，反复检索那些排名靠前的相同UGC页面，一条被污染的页面就能感染该智能体的整个研究背景。

成本极低，成功率惊人

这项攻击的效率惊人。研究发现，被污染的文本短至13个单词，就能实现38%到62%的提及率。这意味着，在这个比例的查询中，攻击者的目标实体会被直接引用到AI的最终输出里。论文证实，这种有效性在多个查询集群和不同的底层智能体架构中都成立，表明这是一个结构性的漏洞，而非某个单一系统的缺陷。

这种攻击并不会让整份报告显得荒谬或低质量。被注入的文本能与合法的内容合理地融合在一起，使得这种对诈骗产品的隐性推广，无论是普通用户还是自动过滤器都难以察觉。

一个极度集中的攻击面

问题的核心在于检索重叠。研究人员观察到，在同一个主题集群中，相同的Reddit页面会出现在多达48%的相关查询的搜索结果里。这意味着，污染一个流量大的Reddit帖子，就能影响近一半关于该主题的用户查询，无论是“最好的道路救援”，还是“如何取消订阅”，抑或是“评分最高的约会应用”。这种集中度将一个单点故障，放大成了一个广泛存在的漏洞。

为什么现有防御手段无效

研究团队测试了三种直接的防御策略，发现每一种要么无效，要么会适得其反。

彻底屏蔽UGC域名能立刻阻断攻击，办法是将被污染的Reddit和维基百科页面从检索池中移除。然而，这种防御是一种比疾病更糟糕的疗法：UGC平台所提供的丰富、详细、有亲身体验感的信息，正是深度搜索智能体存在的价值所在。移除它们，智能体就无法生成用户所期望的详尽报告了。

用智能体自带的语言模型在检索前筛选来源，有时能捕捉到明显的投毒行为，但根本上并不可靠。一段精心炮制的投毒文本，其口吻与周围合法的评论一致，很容易就能逃避这种检查。这种方法还会显著增加处理延迟和成本，却没有换来相应的安全保障。

对最终输出进行合理性检查，可以标记出一些极端或逻辑不通的推荐。问题在于，WARP攻击的设计本就追求隐蔽。投毒注入的文本很短，与上下文契合，且不会降低报告的整体质量。最终文档能通过合理性审查，没有任何明显的危险信号，但它已经悄悄推荐了攻击者选定的产品。

这项研究的结论令人警醒。这个漏洞不是一个可以打补丁修复的软件缺陷；它是这些智能体设计运作方式所带来的一个根本性后果。它们严重依赖一小部分被反复检索的UGC页面，这就创造了一个集中的、可被利用的攻击面，现有的任何防御手段都无法在堵住漏洞的同时，又不破坏智能体的核心功能。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

人们还问