過去,多數 AI 模型在面對危險提問時(例如如何製造蓖麻毒素),會直接拒絕回答。但 Fable 5 的機制更為微妙且複雜。
它使用的是一套外部的 AI 監控系統(即分類器),這些系統會即時監控使用者是否試圖進行濫用或越獄攻擊(Jailbreak)。一旦使用者觸發了分類器,Fable 5 不會拒絕回應,而是會「默默地」將該次請求轉交給 Anthropic 較舊、能力較弱的模型——Claude Opus 4.8,並向用戶顯示相關提示。
這套降級機制主要活躍於三大高風險主題:
Anthropic 坦承這套系統的判定偏向保守,有時會誤攔一些無害的請求,但強調平均而言,觸發安全機制的情況僅發生在不到 5% 的使用會話中。為了確保穩固性,該系統經過了廣泛的內部紅隊測試,以及外部漏洞賞金計畫(Bug Bounty);據稱在超過一千小時的外部測試中,沒有人能找到通用的越獄方法
。
Anthropic 為 Fable 5 制定了一個極具行銷手法的上市計畫,鼓勵用戶盡快試用。
伴隨這次強大技術釋出的,還有嚴格的資料政策變更。Claude Fable 5 與 Mythos 5 都被列為「涵蓋模型」(Covered Models),這意味著用戶與這兩款模型互動產生的資料,都將強制執行 30 天的保留期,且無法適用於部分大型企業仰賴的「零資料保留」方案。
Comments
0 comments