答案已發布2 週前Last edited 2 週前12 個來源

駭客新招：用13個字的 Reddit 留言，就能讓 AI 深度研究工具推薦詐騙

康乃爾科技校區研究人員發現，AI 深度研究代理人極易受到一種名為 WARP 的簡易攻擊，僅需 13 字的 Reddit 留言就能達成。攻擊之所以成功，是因為 AI 代理人在高達 48% 的相關查詢中，都反覆擷取相同的使用者生成內容（UGC）頁面。

使用 Studio Global AI 搜尋並查證事實瀏覽更多熱門頁面

453K0

AI security warning concept showing a digital brain surrounded by poison symbols and red alert indicators, representing the WARP attack on deep-research agents. — What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or fThe WARP attack exploits a structural vulnerability: AI deep-research agents' heavy reliance on frequently retrieved Reddit and Wikipedia pages. (Image: Studio Global / AI-generated)
AI 提示詞
Create a landscape editorial hero image for this Studio Global article: What does a Cornell Tech study reveal about how a single short Reddit comment can trick AI deep-research agents into recommending scams or f. Article summary: A new Cornell Tech preprint (Zhang, Triedman, and Shmatikov) demonstrates that deep-research AI agents are highly vulnerable to a simple attack called **WARP (Web Agent Retrieval Poisoning)**. A single short comment, as . Topic tags: general, academic, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject ""We show that a tiny snippet—just 13 words—of retrieved text on a UGC website like Reddit, Wikipedia, Quora, or Facebook can change AI agents to output spam / scam content pretty c" source context "It Is Trivially Easy to Use Reddit to Manipulate AI Search, Research ..." Reference image 2: visual
openai.com

下次當你請 AI 研究工具推薦最好的交友軟體，或是詢問該怎麼取消惱人的訂閱服務時，你得到的答案，很可能只是一個騙徒在 Reddit 留言裡動了手腳的結果。康乃爾科技校區（Cornell Tech）的一份新預印本研究指出，要操控這類深度研究 AI 代理人，技術門檻低得驚人——攻擊者只需在 Reddit 的某則熱門討論串中，悄悄加入一段精心設計的簡短留言。

研究團隊由張廷偉（Tingwei Zhang）、哈羅德·特里德曼（Harold Triedman）與維塔利·什馬蒂科夫（Vitaly Shmatikov）組成，並將這種攻擊命名為 WARP（Web Agent Retrieval Poisoning，網路代理人檢索汙染）。它並非直接侵入 AI 系統，而是巧妙利用了這類工具的核心運作機制。

WARP 攻擊如何運作？

現今的深度研究代理人，例如學術界常用的 STORM、Co-STORM 或 OmniThink，其運作方式是根據使用者提問，在網路上發出一系列相關的搜尋查詢，再將蒐集到的資訊整合成一份完整的報告。而康乃爾團隊發現了一個致命的弱點：這些代理人極度仰賴使用者生成的內容。數據顯示，在一次研究過程中，所有被擷取的網址有 54% 到 71% 來自這類平台，其中又以 Reddit 和維基百科最常被引用。

這種高度集中性，形成了一個可被利用的攻擊面。攻擊者不必駭入任何系統，只需在任何一個現有的熱門 Reddit 討論串上，留下一則帶有特定意圖的留言，例如大力推薦某個根本不存在的產品或詐騙服務。由於 AI 代理人在研究某個主題時，會反覆從同一批高排名的使用者生成內容頁面中抓取資料，只要汙染了其中一個頁面，就可能全面感染整個研究脈絡，讓捏造的資訊進入最終產出的報告中。

成本極低，成功率卻高得嚇人

這項研究的實驗結果令人不安。研究團隊發現，汙染用的文字長度只需短短 13 個英文單字，就能在 38% 到 62% 的查詢中，成功地讓攻擊者指定的實體（例如一個假的付費服務）被引用在 AI 產出的最終報告裡。

更可怕的是，這種攻擊的高成功率並非只侷限於單一系統。研究證實，無論面對哪種主流的代理人架構（STORM、Co-STORM 或 OmniThink），也不管是在哪個主題類別下的查詢群組，效果都一樣顯著。這說明此弱點是結構性問題，而非某個特定程式的軟體臭蟲。

這類攻擊的另一個狡獪之處在於，它不會讓整份報告看起來荒誕不經或品質低劣。植入的惡意文字能夠合理地融入周遭的正當內容中，要讓使用者或自動化過濾機制察覺到那微妙的置入性推薦，極其困難。

一個高度集中的危險攻擊面

這項攻擊手法的核心問題，在於所謂的「檢索重疊」（retrieval overlap）。研究人員觀察到，在一個主題集群中，同一個 Reddit 頁面會出現在相關查詢搜尋結果的機率高達 48%。換句話說，只要汙染一條流量不錯的 Reddit 討論串，就能影響到近半數關於該主題的使用者提問，無論是「最好的道路救援服務」、「如何取消某訂閱」還是「最高評價的交友軟體」，全部都有可能中招。這種集中性將一個「單點故障」變成了一個「廣泛性的弱點」。

為何現有的防禦機制形同虛設？

研究團隊進一步測試了三種直覺的防禦策略，結果發現每一種不是沒用，就是會嚴重損害代理人核心功能，可說是無解之題。

1. 全面封鎖使用者生成內容網域
這招最直接，只要不讓代理人去擷取 Reddit 或維基百科等有問題的網站，就能立刻阻斷攻擊。但這帖藥的副作用比疾病本身更致命：這些平台所蘊含的豐富、詳盡且充滿經驗分享的資訊，正是 AI 深度研究有價值的主因。一旦移除，代理人根本無法產出使用者期待的深度報告。

2. 以語言模型進行來源篩選
也就是在擷取前，讓代理人用自己的語言模型先判斷來源是否可信。這種做法偶爾能抓到一些過於明顯的汙染，但卻有根本上的不可靠性。一段精心編寫的惡意文字，其語調和風格完全可以與週遭的正常留言如出一轍，輕鬆就能逃過檢查。更糟的是，這會大幅增加處理延遲與成本，但在安全性上的回報卻不成比例。

3. 對最終產出進行合理性檢查
這是指在報告生成後，再次檢查其邏輯一致性或是否有異常推薦。問題在於 WARP 攻擊的設計本來就極其隱蔽，惡意注入的文字簡短、貼合情境，且完全不降低報告的整體品質。這份最終文件能輕易通過所有合理性審查，表面上看不出任何可疑之處，但它卻已在無聲無息中，推薦了攻擊者選擇的產品。

這份研究的結論相當沉重：這並非一個可以靠軟體修補的漏洞，而是這些 AI 代理人設計與運作原理下，一個根本性的後果。它們過度仰賴一小部分被反覆取用的使用者生成內容頁面，形成了一個集中且可被利用的攻擊面。所有現存防禦手段都無法在不破壞代理人核心功能的前提下，有效封閉這個弱點。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

大家也會問