在發布 Fable 5 之前,Anthropic 鋪陳了極其詳細的安全軍火展示:
這次的迅速破防,直接打臉了這些數據。一個扛住上千小時專家圍毆的安全系統,竟在一天內被一位獨立研究員破解,而且手法靠的完全不是什麼高深的系統漏洞,而是那些「分類器顯然疏於訓練」的社會工程學式提示技巧 。
Fable 5 事件並非單一偶然。翻開普林尼的「戰史」,這是一個已經延續好一陣子的固有模式:
這個模式的核心,是普林尼自己說的「用模型來越獄模型」的典範轉移 。攻擊者不再絞盡腦汁寫那句「一語中的」的魔術提示詞,而是直接派出一隻已被解放的 AI 當作自主攻擊代理,去對付下一個目標。這種代理式、多輪對話、拆解式的攻擊方法,對於那些多半被訓練來攔截靜態惡意提示的分類器來說,顯然是更難纏的對手。
整個安全研究社群也都看到了類似的演變。資安公司 Repello 在分析 2026 年的越獄趨勢時就指出,最具實際危害的攻擊,已經不是單一回合的提示詞突破,而是那些經過多輪對抗、每一步看起來都無害的序列式攻擊——這完全呼應了普林尼的「狼群」戰法 。
Fable 5 越獄事件並非證明 Anthropic 的安全承諾是場空心大戲,但它確實逼出了幾個讓人冷汗直流的問題。專業組織耗費上千小時的紅隊演練,竟然找不到一個獨立研究員在一天內就能搞出來的東西。這個差距暗示著,不論現行的認證流程多麼嚴謹,都可能系統性地低估了真實世界中對抗性創意的多元性——尤其是在代理式、多回合、師法社會工程學的那些攻擊思維上。
這也帶來了一個兩難的困境:假如一個模型的護欄,堅固到可以扛住好幾個月的結構化測試,卻在面對一場有協調的多代理圍毆時瞬間土崩瓦解,那麼對這些公開釋出的前線模型來說,「安全認證」究竟代表什麼意義?普林尼一次又一次,在不同公司、不同架構的模型上,用速度和可重現性證明了這個困境。這個挑戰或許不是單一模型設計的缺陷,而是當代「提示層級安全分類器」這個典範本身,可能隱藏著更深層的系統性盲點。
Comments
0 comments