平價模型派嘅重點,唔係話細型開放權重模型已經可以像 Mythos 一樣做完整自主 Agent。重點係:網安能力可以好不平均。一個模型可能在某些任務較弱,但在一個範圍清楚、材料已準備好嘅漏洞分析題目上,仍然可以有令人意外嘅表現。Aisle 的測試正正發現,當 Anthropic 展示漏洞嘅相關程式碼被抽出後,細型平價開放權重模型可追回不少相同分析 。
Tom’s Hardware 對公告後爭議嘅整理亦近似:Mythos 可能係整體最強嘅網安 AI 模型之一,但較平價模型在部分 exploit 發現同修補任務上,可以達到相近結果;不過可靠度同可用性仍然有疑問 。
呢個分別好重要。做到一段已抽離程式碼嘅漏洞分析,唔等於可以自主進入網絡環境、規劃攻擊路線、串連多個步驟、利用漏洞,最後完成模擬入侵。公開證據最能支持 Mythos 領先嘅地方,仍然係呢類較長、較自主嘅工作流 。
由公開資料睇,最好嘅解釋唔係單靠模型本身,而係模型加上一整套網安專用支架:工具、執行環境、存取權限、上下文選擇、提示設計,以及專家覆核。Aisle 明確指出,護城河在於深層安全專業知識被嵌入嘅系統,而唔係模型本身 。AISI 的評估亦提醒大家,Mythos 最強嘅觀察結果出現在受控條件下,而且模型被明確指示並獲得網絡存取權限
。
存取安排亦係故事一部分。Bain 形容 Claude Mythos Preview 係具嚴肅網安能力嘅前沿模型,強到 Anthropic 將發佈限制在名為 Project Glasswing 嘅審核夥伴計劃之內 。所以實際比較唔係單純邊個公開 API 平,而係可用模型、工具同專業知識可以重建到幾多同類工作流程
。
暫時未有乾淨嘅公開同場比較,可以在完全相同條件下量度 Mythos、低成本 API 同開放權重模型嘅價格/效能。AISI 是在受控環境評估 Mythos,並將它同以往前沿模型進展比較 。Anthropic 提供詳盡但由開發者撰寫嘅紅隊證據
。Aisle 則是在部分被展示漏洞上做較窄嘅反向測試
。呢幾類資料回答嘅,其實係相關但唔完全相同嘅問題。
真正理想嘅比較,應該要固定工具存取、程式碼上下文、網絡權限、嘗試次數、運算預算、漏洞執行規則同人手覆核程度。無呢套同場設定之前,無論話 Mythos 有不可追上護城河,或者話平價模型已經完全一樣強,都太早 。
Claude Mythos 最值得重視嘅地方,是它在自主性同多步驟執行要求高嘅網安任務上,表現看來相當突出。不過,公開資料未證明它底層網安推理能力係平價模型完全無法觸及。較安全嘅講法係:Mythos 在複雜網安工作流上有真領先;但低成本模型如果配合好工具、清晰上下文同專家監督,在有邊界嘅分析任務上仍可覆蓋意想不到嘅部分 。
Comments
0 comments