低成本模型的反駁點,不是說小型開放權重系統已經能像 Mythos 一樣自主行動。重點在於:AI 的資安能力可能很「鋸齒狀」——某個模型在一些任務上很弱,卻可能在範圍明確、材料準備好的漏洞分析中出人意料地有用。Aisle 的測試顯示,只要先把相關程式碼隔離出來,小型、便宜的開放權重模型也能在 Mythos 展示的部分漏洞案例中重現不少分析 。
科技媒體 Tom’s Hardware 對公告後的討論也做了類似總結:Mythos 可能是目前整體資安能力最強的 AI 模型之一,但在某些找 exploit 與修補漏洞的任務上,便宜模型也能達到相近結果;同時,可靠性與可用時間仍是問題 。
這個差別很重要。能在已切好的程式碼片段上做出相似分析,不等於能自主探索網路、連接多個攻擊步驟、利用漏洞並完成模擬入侵。公開證據最能支持的,是 Mythos 在這類更長、更像代理人行為的工作流上有領先 。
從目前證據看,最合理的解釋不是「模型本身獨一無二」,而是模型加上資安專用支架:工具、執行環境、存取權限、上下文選擇、提示設計,以及專家審查。Aisle 明確主張,護城河在於「把深度安全專業嵌入其中的系統」,而不是模型本身 。AISI 的評估也凸顯了設定的重要性,因為 Mythos 最強的行為是在受控條件下、被明確指示並取得網路存取時出現
。
存取權限也是故事的一部分。Bain 的分析把 Claude Mythos Preview 描述為具備嚴肅資安能力的前沿模型,能力強到 Anthropic 將其釋出限制在名為 Project Glasswing 的受審核合作夥伴計畫中 。因此,實務上的比較不是單純問哪個公開 API 比較便宜,而是要問:可取得的模型、工具與專業能力,能否重建同等工作流
。
現在還沒有乾淨的公開「同場競技」價格/效能基準,能在完全相同條件下比較 Mythos、低成本 API 與開放權重模型。AISI 評估的是受控環境中的 Mythos,並將其與先前前沿模型的進展相比 。Anthropic 提供了詳細但由開發者撰寫的紅隊證據
。Aisle 則提供較窄的反向測試,聚焦在 Anthropic 展示過的部分漏洞案例
。這些資料都重要,但回答的是不同問題。
真正理想的比較,必須固定工具存取、程式碼上下文、網路權限、嘗試次數、運算預算、exploit 執行規則與人類審查程度。少了這些條件,無論說 Mythos 已形成不可追趕的護城河,或說便宜模型已經全面追上,都還太早 。
Claude Mythos 的資安能力在需要自主性與多步驟執行時看起來相當突出。但公開紀錄還沒有證明,它的底層資安推理能力是便宜模型完全無法取得的獨家資產。比較穩妥的結論是:Mythos 在複雜資安工作流上確實領先;而低成本模型若搭配良好工具與專家監督,也能在範圍明確的分析任務中覆蓋令人意外的一部分能力 。
Comments
0 comments