問題嘅核心在於「檢索重疊率」極高。研究員觀察到,喺一個特定主題嘅問題群組入面,同一個 Reddit 頁面會喺高達 48% 嘅相關搜尋結果中出現。即係話,只要毒化一個流量高嘅 Reddit 帖,就可以影響到接近一半用家對嗰個課題嘅查詢,由「邊間拖車服務最可靠」、「點樣取消訂閱」以至「最高評分嘅交友 App」都無一倖免。呢種高度集中嘅特性,令一個本來只係單點嘅故障,變成一個大範圍嘅漏洞 。
第一招:完全封鎖 UGC 網域
呢招理論上可以即刻煞停攻擊,因為斬腳趾避沙蟲,封晒 Reddit 同維基百科就唔會有毒。之不過,呢種防禦方法衰過個病。事關 UGC 平台提供嘅正正係嗰啲豐富、詳細又有血有肉嘅親身經驗資訊,冇咗呢啲內容,AI 深度研究根本冇價值。封咗佢哋,個 Agent 就同廢咗武功冇分別,做唔到用家想要嘅詳盡報告 。
第二招:用 AI 嘅語言模型預先篩選來源
喺擷取資料之前,用 AI 自己個腦去判斷個來源信唔信得過,有時係會捉到一啲好明顯嘅落毒。但呢種方法本身就靠唔住,事關一段寫得夠高明嘅毒文案,語氣同行文風格係會同周邊正當嘅留言一模一樣,好容易就避得開檢查。仲有,呢招會令處理時間同成本大增,但保安效益完全唔成正比 。
第三招:對最終報告做合理性檢查
呢招可以篩走一啲極端或者邏輯上自相矛盾嘅建議。問題係,WARP 攻擊設計嚟就係要走隱蔽路線。植入嘅內容好短,合乎上下文,而且唔會降低報告整體質素。份最終報告可以通過晒所有合理性審查,搵唔到明顯嘅紅色警示(Red Flag),但實際上佢已經靜靜雞推薦咗攻擊者揀定嘅產品 。
研究嘅結論都幾令人心噏。呢個漏洞唔係一個可以透過修補程式(Patch)嚟解決嘅軟件錯誤;呢個係呢類 AI Agent 設計上操作方式嘅根本性後果。佢哋對一小撮會不斷重複擷取嘅 UGC 頁面嘅高度依賴,形成咗一個集中而又可以被利用嘅攻擊面,而現時冇任何防禦措施可以封得住個窿,同時又唔會破壞咗 AI Agent 本身嘅核心功能 。
Comments
0 comments