康奈尔科技校区的研究人员发现,深度搜索AI智能体极易受到一种名为WARP的简单攻击。 该攻击之所以成功,是因为AI智能体在高达48%的相关查询中,都会反复检索相同的用户生成内容页面。 植入短短13个字的投毒文本,就能在38%到62%的查询中,让目标实体或产品被AI写进最终报告。

Create a landscape editorial hero image for this Studio Global article: What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or f. Article summary: A new Cornell Tech preprint (Zhang, Triedman, and Shmatikov) demonstrates that deep-research AI agents are highly vulnerable to a simple attack called **WARP (Web Agent Retrieval Poisoning)**. A single short comment, as . Topic tags: general, academic, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject ""We show that a tiny snippet—just 13 words—of retrieved text on a UGC website like Reddit, Wikipedia, Quora, or Facebook can change AI agents to output spam / scam content pretty c" source context "It Is Trivially Easy to Use Reddit to Manipulate AI Search, Research ..." Reference image 2: visual
下次你向AI搜索工具询问“最好的约会应用是哪个”或“如何取消烦人的订阅”时,答案可能已被骗子植入。只需在Reddit评论区藏匿短短一句话。康奈尔科技校区的一篇新论文揭示,深度搜索AI智能体极易被一种名为WARP(Web Agent Retrieval Poisoning,即网络智能体检索投毒) 的攻击所操纵 。
像STORM、Co-STORM和OmniThink这类深度搜索智能体,其工作逻辑是发起一系列相关的搜索查询,然后将检索到的信息整合成一份详尽的报告。康奈尔的研究人员发现了一个关键的弱点:这些智能体严重依赖用户生成内容。在一个研究会话中,它们检索到的所有URL链接中,有54%到71%来自UGC平台,其中Reddit和维基百科是被引用最频繁的来源 。
这种集中度就制造了一个可被利用的攻击面。攻击者只需在一个现有的、热度较高的Reddit帖子下发表一条精心设计的评论,或是悄无声息地编辑一条维基百科词条,其目的是推广一个特定的目标实体,比如一个虚假产品或欺诈服务。由于智能体会在某个主题下的大量不同查询中,反复检索那些排名靠前的相同UGC页面,一条被污染的页面就能感染该智能体的整个研究背景 。
这项攻击的效率惊人。研究发现,被污染的文本短至13个单词,就能实现38%到62%的提及率。这意味着,在这个比例的查询中,攻击者的目标实体会被直接引用到AI的最终输出里。论文证实,这种有效性在多个查询集群和不同的底层智能体架构中都成立,表明这是一个结构性的漏洞,而非某个单一系统的缺陷 。
这种攻击并不会让整份报告显得荒谬或低质量。被注入的文本能与合法的内容合理地融合在一起,使得这种对诈骗产品的隐性推广,无论是普通用户还是自动过滤器都难以察觉 。
问题的核心在于检索重叠。研究人员观察到,在同一个主题集群中,相同的Reddit页面会出现在多达48%的相关查询的搜索结果里。这意味着,污染一个流量大的Reddit帖子,就能影响近一半关于该主题的用户查询,无论是“最好的道路救援”,还是“如何取消订阅”,抑或是“评分最高的约会应用”。这种集中度将一个单点故障,放大成了一个广泛存在的漏洞 。
研究团队测试了三种直接的防御策略,发现每一种要么无效,要么会适得其反 。
彻底屏蔽UGC域名能立刻阻断攻击,办法是将被污染的Reddit和维基百科页面从检索池中移除。然而,这种防御是一种比疾病更糟糕的疗法:UGC平台所提供的丰富、详细、有亲身体验感的信息,正是深度搜索智能体存在的价值所在。移除它们,智能体就无法生成用户所期望的详尽报告了 。
用智能体自带的语言模型在检索前筛选来源,有时能捕捉到明显的投毒行为,但根本上并不可靠。一段精心炮制的投毒文本,其口吻与周围合法的评论一致,很容易就能逃避这种检查。这种方法还会显著增加处理延迟和成本,却没有换来相应的安全保障 。
对最终输出进行合理性检查,可以标记出一些极端或逻辑不通的推荐。问题在于,WARP攻击的设计本就追求隐蔽。投毒注入的文本很短,与上下文契合,且不会降低报告的整体质量。最终文档能通过合理性审查,没有任何明显的危险信号,但它已经悄悄推荐了攻击者选定的产品 。
这项研究的结论令人警醒。这个漏洞不是一个可以打补丁修复的软件缺陷;它是这些智能体设计运作方式所带来的一个根本性后果。它们严重依赖一小部分被反复检索的UGC页面,这就创造了一个集中的、可被利用的攻击面,现有的任何防御手段都无法在堵住漏洞的同时,又不破坏智能体的核心功能 。
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
康奈尔科技校区的研究人员发现,深度搜索AI智能体极易受到一种名为WARP的简单攻击。
康奈尔科技校区的研究人员发现,深度搜索AI智能体极易受到一种名为WARP的简单攻击。 该攻击之所以成功,是因为AI智能体在高达48%的相关查询中,都会反复检索相同的用户生成内容页面。
植入短短13个字的投毒文本,就能在38%到62%的查询中,让目标实体或产品被AI写进最终报告。
Loading comments...
Comments
0 comments