如果只睇一個數,Claude Mythos Preview 最搶眼一定係 SWE-bench Verified 93.9%。但真正重點係:呢個模型唔係公開榜單上另一個大家可以即刻試嘅 Claude。Anthropic 在 Claude API 文件中,將 Claude Mythos Preview 列為 Project Glasswing 之下、面向防守型網絡安全工作流程嘅獨立 research-preview 模型;存取採邀請制,亦沒有自助登記。[13]
所以,以下 benchmark 應該當成「能力訊號」去睇,而唔係一張可以完全照抄、人人都能即時複測嘅公開排行榜。
先分清:官方確認咗咩?
官方最清楚確認嘅,是 Claude Mythos Preview 嘅身份同定位:它係 Project Glasswing 入面、用於防守型網絡安全工作流程嘅 research-preview 模型,並且只限邀請使用。[13]
Anthropic 在 Project Glasswing 頁面亦將 Claude Mythos Preview 描述為一個通用前沿模型,特別擅長 coding 同 agentic tasks;Anthropic 同時解釋,佢喺網絡安全方面嘅強項,來自更廣泛地理解、修改複雜軟件,以及找出和修補漏洞嘅能力。[16]
系統卡來源則將 Claude Mythos Preview 描述為一個新大型語言模型/前沿 AI 模型,能力範圍包括 software engineering、reasoning、computer use、knowledge work 同研究輔助等。[18]
換句話講:官方資料主要支撐模型定位同能力範圍;至於下面列出嘅具體分數,喺目前資料中主要係透過第三方整理、報道或引用系統卡數據而見到。[6][
9][
25][
27]
主要 benchmark 分數一覽
| 範疇 | Benchmark | Claude Mythos Preview 報告值 | 點樣理解 |
|---|---|---|---|
| Coding | SWE-bench Verified | 93.9% | W&B 同時列出 Claude Opus 4.6 為 80.8%。[ |
| 多語言 coding | SWE-bench Multilingual | 87.3% | W&B 同時列出 Claude Opus 4.6 為 77.8%。[ |
| Multimodal | 內部 multimodal evaluation | 59.0% | W&B 指這是內部評測,Claude Opus 4.6 為 27.1%。[ |
| 網絡安全 | Cybench | pass@1 = 1.00 | Authmind 將 Cybench 描述為由 40 個 CTF challenge 組成的公開 benchmark,並列出 Claude Opus 4.6 為 0.89。[ |
| 網絡安全 | CyberGym | 0.83 | Authmind 指 CyberGym 評估 AI agent 在 1,507 個真實開源軟件任務中重現指定漏洞,Claude Opus 4.6 為 0.67。[ |
| Reasoning | GPQA Diamond | 94.6% | llm-stats 列出 Claude Opus 4.6 為 91.3%。[ |
| Reasoning | Humanity’s Last Exam,無工具/有工具 | 56.8% / 64.7% | llm-stats 列出 Claude Opus 4.6 為 40.0%/53.1%。[ |
| Terminal agent | Terminal-Bench 設定 | 92.1% | llm-stats 將此分數連到 Terminus-2 harness、最高 adaptive thinking、每題 1M token budget、4 小時 timeout 同 Terminal-Bench 2.1 更新。[ |
| 多任務知識 | MMMLU | 92.7 | R&D World 報道指,這個數值與 Gemini 3.1 Pro 的 92.6 至 93.6 區間重疊,亦係「18 項中領先 17 項」說法入面唯一例外。[ |
點解 93.9% 會變成 headline score?
對開發團隊嚟講,SWE-bench Verified 最易成為焦點,因為它直接指向 coding、修 bug、處理軟件工程任務呢類大家最關心嘅能力。W&B 報告 Claude Mythos Preview 在 SWE-bench Verified 達 93.9%,並將其與 Claude Opus 4.6 的 80.8% 作比較。[6]
另一個值得留意嘅係多語言 coding。W&B 報告 Mythos Preview 在 SWE-bench Multilingual 達 87.3%,對比 Claude Opus 4.6 的 77.8%。[6] 呢點令「強項唔只係單一英文 coding 測試」呢個解讀更有說服力。
不過,93.9% 仍然唔代表你公司任何 repo、任何 CI/CD 流程、任何 code review 標準都會得到同樣效果。再加上 Anthropic 文件列明 Mythos Preview 係邀請制、沒有 self-serve sign-up,外部團隊並唔能夠像一般 API 模型咁自行大量複測。[13]
網絡安全高分:強,但係特定場景
網絡安全分數同樣搶眼。Authmind 報告 Claude Mythos Preview 在 Cybench 達到 pass@1 = 1.00;該文將 Cybench 描述為由四個主要比賽、合共 40 個 CTF challenge 組成的公開 benchmark。[27]
CyberGym 方面,Authmind 報告 Mythos Preview 得分 0.83,並指 CyberGym 係用 1,507 個真實開源軟件任務,評估 AI agent 能否重現指定漏洞。[27]
呢啲結果同 Anthropic 對 Mythos Preview 嘅定位相符:API 文件將佢放喺 Project Glasswing 的防守型網絡安全工作流程之中,[13] 而 Project Glasswing 頁面亦將網絡安全能力連到模型理解、修改複雜軟件,以及找出和修補漏洞嘅能力。[
16]
但要小心:CTF challenge 同漏洞重現,都係特定評測場景。佢哋係重要訊號,尤其對安全分析同 code review 有參考價值;但唔等於已經覆蓋某間機構實際生產環境入面嘅權限規則、工具限制、審批流程同責任邊界。
Reasoning、multimodal 同 terminal agent:設定好關鍵
除咗 coding 同 cybersecurity,第三方資料亦報告 Mythos Preview 有強 reasoning 分數。llm-stats 列出 GPQA Diamond 為 94.6%,Humanity’s Last Exam 無工具為 56.8%,有工具為 64.7%。[25]
Humanity’s Last Exam 分開「有工具」同「無工具」列出,其實好重要。模型可唔可以用工具,會直接影響評測結果;如果兩個模型喺工具權限、時間、上下文長度上唔一樣,分數就唔應該硬碰硬比較。
Terminal-Bench 更加係一個例子。llm-stats 報告 92.1% 這個分數時,同時提到相關設定包括 Terminus-2 harness、最高 adaptive thinking、每題 1M token budget、延長至 4 小時 timeout,以及 Terminal-Bench 2.1 更新。[25] 對 agent benchmark 嚟講,呢啲唔係小字註腳,而係評測本身嘅一部分。
Multimodal 分數亦要咁睇。W&B 報告 Mythos Preview 在一個內部 multimodal evaluation 中達 59.0%,Claude Opus 4.6 則為 27.1%。[6] 另外,llm-stats 亦提醒,SWE-bench Multimodal 使用內部實作,分數不能直接同公開 leaderboard 結果比較。[
25]
點解唔應該當成普通 leaderboard 分數?
最少有四個限制要記住:
-
存取受限。 Anthropic 文件列明 Claude Mythos Preview 係邀請制 research-preview 模型,而且沒有自助登記。[
13] 一般開發者或安全團隊好難自行重現完整測試。
-
來源混合。 目前官方來源主要支持模型身份、定位同能力範圍。[
13][
16][
18] 具體分數多數係透過 W&B、R&D World、llm-stats、Authmind 等第三方資料見到。[
6][
9][
25][
27]
-
部分評測係內部或特殊設定。 Multimodal 分數被描述為內部評測;Terminal-Bench 分數則涉及特定 harness、最高 thinking、巨大 token budget 同延長 timeout。[
6][
25]
-
任務類型有邊界。 Cybench 係 40 個 CTF challenge;CyberGym 係 1,507 個真實開源任務中的指定漏洞重現。[
27] 呢啲任務有代表性,但唔等於涵蓋所有企業安全場景。
結論:好強,但唔好當成完全公開可複現排名
Claude Mythos Preview 在目前報告出嚟嘅 benchmark 入面,確實非常突出:SWE-bench Verified 93.9%、SWE-bench Multilingual 87.3%、內部 multimodal evaluation 59.0%、CyberGym 0.83,以及 Cybench pass@1 = 1.00。[6][
27]
但最重要嘅解讀唔係「佢係咪榜首」,而係「呢啲分數喺咩條件下產生」。Claude Mythos Preview 係 Anthropic 放入 Project Glasswing 的邀請制 research preview,唔係一般人可以即時自助開通嘅標準產品模型。[13]
如果你係開發或安全團隊,較穩陣嘅睇法係:把 Mythos Preview 當成下一代 coding agent、terminal agent 同防守型網絡安全模型能力嘅強烈訊號;但唔好將任何單一 benchmark 分數,直接等同你自己 repo、工具鏈同審批流程入面嘅實際表現。




