Pliny將佢呢次攻擊手法形容為**「群狼戰術」(pack hunt)** ——一種協同多代理嘅攻擊方式,而唔係靠一個天聰明的單一指令 。呢次攻擊混合咗好多種對抗性策略,一步一步咁累積效果,最後先至成功突破防線:
喺Fable 5推出之前,Anthropic提出咗一份異常詳細嘅公開安全措施清單:
呢次極速越獄,直接推翻咗呢啲數字。一個聲稱經過上千個鐘對抗性測試嘅安全系統,竟然被一個研究員喺一日之內,用一啲唔係咩新穎嘅軟件漏洞,而係類似社會工程嘅指令策略就咁繞過咗——好明顯,呢啲策略係分類器訓練嗰陣時完全走漏眼嘅 。
Fable 5嘅事件並唔係單一事件。佢延續咗同一位紅隊研究員過往有曬記錄嘅「戰績」:
呢個規律背後,係一套攻擊方法論嘅轉變,Pliny自己形容為**「模型圍毆模型」** 。攻擊者唔再需要自己絞盡腦汁去設計一個萬能嘅魔法指令,而係放一個已經被攻陷嘅模型出去做自主代理,等佢自己去攻擊新目標。事實證明,呢種代理式、多輪對話、基於任務碎片化嘅攻擊方法,相比起安全系統主要訓練嚟攔截嘅靜態指令攻擊,難偵測得多。
更廣泛嘅研究社群都觀察到類似嘅演變。網絡安全公司Repello分析2026年嘅越獄趨勢時指出,最具操作性危險嘅攻擊,已經唔再係單一指令嘅越獄,而係好多個步驟、每個步驟睇落都單獨無害嘅多輪對抗序列——呢個描述同「群狼戰術」嘅框架極之吻合 。
Fable 5被越獄,並唔係話Anthropic嘅安全措施係流嘅,但佢確實帶出咗一啲好唔舒服嘅問題,特別係關於規模化嘅安全測試。專業組織用咗超過1,000個鐘做紅隊測試都搵唔到嘅漏洞,一個意志堅定嘅獨立研究員喺一日之內就搵到。呢個差距表示,而家嘅安全認證計劃無論幾咁嚴謹,都可能系統性咁低估咗現實世界中對抗性創意嘅多樣性——特別係嗰啲代理式、多輪對話同社會工程啟發嘅攻擊方法。
同時都帶出咗一個兩難局面:如果一個模型嘅護欄穩固到可以承受幾個月嘅結構化測試,但一遇到協同多代理攻擊就即刻崩潰,咁樣「安全認證」對公開發佈嘅前沿模型嚟講,到底意味住啲咩?由Pliny呢個攻擊模式嘅速度同可重複性,仲要跨越多間公司同架構嚟睇,呢個挑戰似乎唔係個別模型設計嘅問題,而可能係而家呢種以指令級別安全分類器為基礎嘅範式本身嘅固有缺陷。
Comments
0 comments