康乃爾科技校區研究人員發現,AI 深度研究代理人極易受到一種名為 WARP 的簡易攻擊,僅需 13 字的 Reddit 留言就能達成。 攻擊之所以成功,是因為 AI 代理人在高達 48% 的相關查詢中,都反覆擷取相同的使用者生成內容(UGC)頁面。

Create a landscape editorial hero image for this Studio Global article: What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or f. Article summary: A new Cornell Tech preprint (Zhang, Triedman, and Shmatikov) demonstrates that deep-research AI agents are highly vulnerable to a simple attack called **WARP (Web Agent Retrieval Poisoning)**. A single short comment, as . Topic tags: general, academic, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject ""We show that a tiny snippet—just 13 words—of retrieved text on a UGC website like Reddit, Wikipedia, Quora, or Facebook can change AI agents to output spam / scam content pretty c" source context "It Is Trivially Easy to Use Reddit to Manipulate AI Search, Research ..." Reference image 2: visual
下次當你請 AI 研究工具推薦最好的交友軟體,或是詢問該怎麼取消惱人的訂閱服務時,你得到的答案,很可能只是一個騙徒在 Reddit 留言裡動了手腳的結果。康乃爾科技校區(Cornell Tech)的一份新預印本研究指出,要操控這類深度研究 AI 代理人,技術門檻低得驚人——攻擊者只需在 Reddit 的某則熱門討論串中,悄悄加入一段精心設計的簡短留言。
研究團隊由張廷偉(Tingwei Zhang)、哈羅德·特里德曼(Harold Triedman)與維塔利·什馬蒂科夫(Vitaly Shmatikov)組成,並將這種攻擊命名為 WARP(Web Agent Retrieval Poisoning,網路代理人檢索汙染)。它並非直接侵入 AI 系統,而是巧妙利用了這類工具的核心運作機制。
現今的深度研究代理人,例如學術界常用的 STORM、Co-STORM 或 OmniThink,其運作方式是根據使用者提問,在網路上發出一系列相關的搜尋查詢,再將蒐集到的資訊整合成一份完整的報告。而康乃爾團隊發現了一個致命的弱點:這些代理人極度仰賴使用者生成的內容。數據顯示,在一次研究過程中,所有被擷取的網址有 54% 到 71% 來自這類平台,其中又以 Reddit 和維基百科最常被引用。
這種高度集中性,形成了一個可被利用的攻擊面。攻擊者不必駭入任何系統,只需在任何一個現有的熱門 Reddit 討論串上,留下一則帶有特定意圖的留言,例如大力推薦某個根本不存在的產品或詐騙服務。由於 AI 代理人在研究某個主題時,會反覆從同一批高排名的使用者生成內容頁面中抓取資料,只要汙染了其中一個頁面,就可能全面感染整個研究脈絡,讓捏造的資訊進入最終產出的報告中。
這項研究的實驗結果令人不安。研究團隊發現,汙染用的文字長度只需短短 13 個英文單字,就能在 38% 到 62% 的查詢中,成功地讓攻擊者指定的實體(例如一個假的付費服務)被引用在 AI 產出的最終報告裡。
更可怕的是,這種攻擊的高成功率並非只侷限於單一系統。研究證實,無論面對哪種主流的代理人架構(STORM、Co-STORM 或 OmniThink),也不管是在哪個主題類別下的查詢群組,效果都一樣顯著。這說明此弱點是結構性問題,而非某個特定程式的軟體臭蟲。
這類攻擊的另一個狡獪之處在於,它不會讓整份報告看起來荒誕不經或品質低劣。植入的惡意文字能夠合理地融入周遭的正當內容中,要讓使用者或自動化過濾機制察覺到那微妙的置入性推薦,極其困難。
這項攻擊手法的核心問題,在於所謂的「檢索重疊」(retrieval overlap)。研究人員觀察到,在一個主題集群中,同一個 Reddit 頁面會出現在相關查詢搜尋結果的機率高達 48%。換句話說,只要汙染一條流量不錯的 Reddit 討論串,就能影響到近半數關於該主題的使用者提問,無論是「最好的道路救援服務」、「如何取消某訂閱」還是「最高評價的交友軟體」,全部都有可能中招。這種集中性將一個「單點故障」變成了一個「廣泛性的弱點」。
研究團隊進一步測試了三種直覺的防禦策略,結果發現每一種不是沒用,就是會嚴重損害代理人核心功能,可說是無解之題。
1. 全面封鎖使用者生成內容網域
這招最直接,只要不讓代理人去擷取 Reddit 或維基百科等有問題的網站,就能立刻阻斷攻擊。但這帖藥的副作用比疾病本身更致命:這些平台所蘊含的豐富、詳盡且充滿經驗分享的資訊,正是 AI 深度研究有價值的主因。一旦移除,代理人根本無法產出使用者期待的深度報告。
2. 以語言模型進行來源篩選
也就是在擷取前,讓代理人用自己的語言模型先判斷來源是否可信。這種做法偶爾能抓到一些過於明顯的汙染,但卻有根本上的不可靠性。一段精心編寫的惡意文字,其語調和風格完全可以與週遭的正常留言如出一轍,輕鬆就能逃過檢查。更糟的是,這會大幅增加處理延遲與成本,但在安全性上的回報卻不成比例。
3. 對最終產出進行合理性檢查
這是指在報告生成後,再次檢查其邏輯一致性或是否有異常推薦。問題在於 WARP 攻擊的設計本來就極其隱蔽,惡意注入的文字簡短、貼合情境,且完全不降低報告的整體品質。這份最終文件能輕易通過所有合理性審查,表面上看不出任何可疑之處,但它卻已在無聲無息中,推薦了攻擊者選擇的產品。
這份研究的結論相當沉重:這並非一個可以靠軟體修補的漏洞,而是這些 AI 代理人設計與運作原理下,一個根本性的後果。它們過度仰賴一小部分被反覆取用的使用者生成內容頁面,形成了一個集中且可被利用的攻擊面。所有現存防禦手段都無法在不破壞代理人核心功能的前提下,有效封閉這個弱點。
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
康乃爾科技校區研究人員發現,AI 深度研究代理人極易受到一種名為 WARP 的簡易攻擊,僅需 13 字的 Reddit 留言就能達成。
康乃爾科技校區研究人員發現,AI 深度研究代理人極易受到一種名為 WARP 的簡易攻擊,僅需 13 字的 Reddit 留言就能達成。 攻擊之所以成功,是因為 AI 代理人在高達 48% 的相關查詢中,都反覆擷取相同的使用者生成內容(UGC)頁面。
研究測試了三種防禦策略,包括封鎖 UGC 網域、以語言模型篩選來源、進行最終產出合理性檢查,結果顯示不是形同虛設,就是會導致 AI 效能大幅下降。
Loading comments...
Comments
0 comments