越獄悖論(Jailbreak Paradox)。 一篇2024年發表於arXiv、並於2026年5月更新的論文正式證明了兩個悖論:首先,不可能建構出一個完美的越獄分類器;其次,一個較弱的模型無法始終如一地偵測出較強的模型是否已被越獄 。這不是一個可以修復的錯誤,而是對齊(alignment)定義本身固有的數學限制。
自主越獄規模化。 2026年3月發表於《自然通訊》(Nature Communications)的一項研究發現,大型推理模型如今可以充當自主越獄代理,在測試的所有模型組合中,總體成功率達到了97.14% 。攻擊面正在擴大,而非縮小。
這項要求並非憑空出現。它遵循一條清晰的軌跡,顯示政府對Anthropic施加的壓力逐步升級:
多家媒體報導,白宮的立場是:Anthropic的Fable 5模型只有在該公司能讓越獄變得不可能的情況下才能恢復上線 。這不是要求逐步改進或分級漏洞管理流程—這是一個絕對的二選一:要嘛沒有任何越獄方式存在,要嘛模型就不能部署
。
Anthropic反擊表示,「迄今為止,沒有任何測試人員能夠找到一個通用越獄方法」,而且對於他們或任何其他公司來說,完全避免任何越獄是不可能的 。該公司還指出,他們「甚至沒有收到任何關於一個令人擔憂的、非通用潛在越獄導致有害結果的通報」
。
根據多家媒體報導,Anthropic面臨三條主要的策略路徑:
1. 遵守與協商。 CEO達里奧·阿莫迪(Dario Amodei)已於6月15日與白宮官員會面,協商一個雙方都能接受的漏洞評估框架—用一個分級嚴重性標準取代零越獄的絕對要求 。據報導,白宮與Anthropic正在合作建立一個評估安全漏洞嚴重性的框架
。這似乎是Anthropic目前正在採取的路徑。
2. 司法或政治挑戰。 Anthropic可以在法庭上對出口管制提出異議,主張政府超越了法定權限,或違反了正當程序,因為它追溯性地對一個已公開的商業產品實施出口管制 。這將是一個高風險、高報酬的舉動,可能創下里程碑式的判例。
3. 重組或遷移業務。 Anthropic可以將模型發布限制在監管環境更可預測的司法管轄區,或重組其公司結構,將面向美國的產品與面向全球的產品分開。一些分析師將此描述為「核選項」,這將從根本上改變Anthropic的商業模式。
這場爭議具體化了將定義前沿AI未來的三項根本性緊張關係:
Comments
0 comments