Claude Mythos Preview 之所以被討論,最醒目的數字是:SWE-bench 93.9%。如果你的問題是「Claude Mythos 的 benchmark 是多少?」短答就是這個數字;但如果要拿它來做技術選型,就不能只看一個百分比。SWE-bench 評估的是軟體工程與程式碼相關任務,並不等於模型在推理、安全性、成本、可用性或所有工作場景的總體能力 [1][
2]。
先看重點:93.9% 是軟體工程成績
目前最常被引用的 Claude Mythos Preview 成績,是 SWE-bench 93.9% [1][
2]。這讓它在討論程式碼修復、軟體工程任務,以及類似「程式設計代理」(coding agent)的工作流程時特別受關注 [
1]。
不過,這裡的關鍵不只是「模型本身多強」,也包括它被放在什麼樣的測試環境中。高 SWE-bench 成績通常出現在代理式設定下:模型可以讀取檔案、執行程式碼、查看測試結果,並在失敗後反覆修改嘗試 [1]。換句話說,93.9% 不是孤立的一句「模型裸跑成績」,而是模型能力加上工具環境與評估流程後得到的結果。
93.9% 不代表什麼?
這個數字不應該被當成 Claude Mythos Preview 的總成績。SWE-bench 是偏向軟體工程的基準測試;它無法單獨衡量一般推理、長文寫作、對話品質、安全表現、部署成本,或其他不像寫程式、讀程式、改程式的任務 [1]。
比較模型時也要特別小心。比較的基本原則是:同一個 benchmark、相近的工具條件、相近的評估流程。如果一個模型能使用檔案系統、執行測試並多輪迭代,另一個模型卻只能一次性回答,把兩者直接相提並論,很容易得出誤導性的結論 [1]。
已被報告的 Claude Mythos Preview 指標
| 領域 | 被報告的結果 | 比較合理的讀法 |
|---|---|---|
| 軟體工程 / SWE-bench | 93.9% | 最清楚、最常被引用的程式碼任務指標;適合用來討論軟體工程與程式代理能力 [ |
| 資安能力 | 83.1%,相較 Claude Opus 4.6 的 66.6% | 屬於資安能力基準,不是在測 SWE-bench,也不應混成同一種分數 [ |
| Cybench | 100% | 次級來源稱其在資安挑戰 benchmark Cybench 達 100%;這仍是資安情境,不是通用能力總評 [ |
| 較廣泛的 benchmark 組合 | 在 18 項中領先 17 項 | 這是對 Anthropic 資料的彙整說法;若要把它解讀成總排名,仍需要看各項目細節 [ |
軟體工程與資安:兩條線要分開看
Claude Mythos Preview 的資安表現也受到注意,但那是另一組問題。來源報告 Mythos Preview 在資安能力 benchmark 中為 83.1%,高於 Claude Opus 4.6 的 66.6% [3]。另有來源稱 Mythos 在 Cybench 達 100%,而 Cybench 被描述為資安挑戰類 benchmark [
5]。
Anthropic 相關資料也主要把 Mythos Preview 放在資安脈絡下討論:Anthropic Red Team 發布了 Claude Mythos Preview 的資安能力評估;Project Glasswing 則包含使用 Claude Mythos Preview 識別漏洞與 exploit 的工作 [13][
24]。這些資訊對資安團隊可能很重要,但它們不該和 SWE-bench 混在一起,變成一個模糊的「AI 總分」。
真正做評估時,該怎麼用這個數字?
如果你的場景是讓 AI 代理處理程式碼庫、修 bug、跑測試、根據結果反覆修改,那麼 93.9% SWE-bench 是最值得先看的數字 [1][
2]。它能提供一個強烈訊號:在特定軟體工程評估條件下,Claude Mythos Preview 被報告有非常高的表現。
如果你的場景是漏洞分析、安全程式碼審查或 exploit 研究,那麼資安 benchmark 與 Anthropic 的相關文件才是更合適的脈絡 [3][
5][
13][
24]。
簡單說:Claude Mythos Preview 最常被引用的 benchmark 是 SWE-bench 93.9% [1][
2]。嚴謹一點的說法則是:這是一個很強的軟體工程訊號,但不是一張可以概括所有能力的成績單。




