Claude Mythos Preview 近日最常被拎出嚟講嘅數字,就係 SWE-bench 93.9%。呢個分數的確搶眼;但睇 benchmark 最忌將一科成績當成全科成績表。SWE-bench 主要評估程式碼同軟件工程任務,唔係一次過量度 AI 模型所有能力 [1][
2]。
先講答案:93.9% 係軟件任務嘅強訊號
目前圍繞 Claude Mythos Preview 最核心、最清楚嘅數字,是 SWE-bench 93.9% [1][
2]。如果你關心嘅係改 code、修 bug、處理 repository,或者建立會自己做開發任務嘅 AI agent,呢個分數就有參考價值 [
1]。
但要睇埋測試設定。SWE-bench 高分通常唔係模型單靠一段回答完成,而係以 agent 形式運作:可以讀檔、執行程式、睇測試結果,再按結果反覆修改 [1]。所以 93.9% 反映嘅,唔只係模型本身,亦包括佢所處嘅工具環境同評測流程。
93.9% 唔代表「所有方面都贏」
93.9% 唔應該當成 Claude Mythos Preview 嘅總分。SWE-bench 係軟件任務 benchmark,唔等於一般推理、安全性、成本、可用性,或者同寫 code 無關嘅工作都同樣有呢個水準 [1]。
比較模型時,最好只喺同一個 benchmark、相近條件下比較。如果一個模型可以讀整個 repo、跑測試、改完再試,另一個模型只係純文字回答,直接排高低就好易「睇錯數」[1]。
已報告嘅幾組 Claude Mythos Preview 數字
| 範疇 | 已報告結果 | 點樣解讀 |
|---|---|---|
| 軟件/SWE-bench | 93.9% | 最適合用嚟睇編程、修 bug、code agent 類任務表現 [ |
| 網絡安全能力 | 83.1%,對比 Claude Opus 4.6 嘅 66.6% | 係另一類資安能力 benchmark,唔應該同 SWE-bench 混為一談 [ |
| Cybench | 100% | 二手報告提到嘅資安挑戰 benchmark,唔係模型整體能力評分 [ |
| 較闊 benchmark 組合 | 18 個中領先 17 個 | 屬於聚合式報告;引用前應該睇清楚每個 benchmark 量度咩 [ |
軟件分數同資安分數,要分開睇
Claude Mythos Preview 亦有幾個資安相關數字。報告指 Mythos Preview 喺網絡安全能力 benchmark 得 83.1%,高過 Claude Opus 4.6 嘅 66.6% [3]。另有報告指佢喺 Cybench 呢個網絡安全挑戰 benchmark 達到 100% [
5]。
Anthropic 方面可見嘅資料亦集中喺呢個方向:Anthropic Red Team 發表咗 Claude Mythos Preview 網絡安全能力評估;Project Glasswing 亦包括用 Claude Mythos Preview 協助識別漏洞同 exploit 嘅工作 [13][
24]。對資安團隊嚟講,呢啲資料可能更貼近實際需要;但唔應該將佢哋加埋 SWE-bench,當成一個「總排名」。
實際應該點用呢個 benchmark?
如果你要評估嘅係「AI agent 幫手改 repo、跑 test、修 code」呢類工作,93.9% SWE-bench 係最值得先睇嘅起點 [1][
2]。如果目標係漏洞分析、安全審查、exploit 研究,咁就應該睇資安 benchmark 同 Anthropic 相關文件 [
3][
5][
13][
24]。
一句講晒:Claude Mythos Preview 最常被引用嘅 benchmark 係 SWE-bench 93.9% [1][
2]。但嚴謹啲講,呢個係特定軟件工程評測同 agent 工具環境下嘅強訊號,唔係證明佢喺所有領域都自動勝出。




