如果只看一個數字,Claude Mythos Preview 最容易被記住的是 SWE-bench Verified 93.9%。但這款模型的重點不只是「分數很高」,而是它並不是一般開發者可直接註冊、自由測試的公開 Claude 模型。Anthropic 在 Claude API 文件中把 Claude Mythos Preview 列為 Project Glasswing 之下、面向防禦性網路安全工作流程的獨立研究預覽模型;存取採邀請制,沒有 self-serve 自助註冊。[13]
因此,以下分數更適合讀作「能力訊號」,而不是像一般公開模型排行榜那樣直接橫向比較。
先看主要分數
這批資料中,具體分數多半來自第三方整理,引用 Anthropic 資料、系統卡評估或各自的彙整。[6][
9][
25][
27]
| 類別 | 基準測試 | 報導的 Claude Mythos Preview 成績 | 怎麼解讀 |
|---|---|---|---|
| 程式能力 | SWE-bench Verified | 93.9% | W&B 同時列出 Claude Opus 4.6 為 80.8%。[ |
| 多語程式能力 | SWE-bench Multilingual | 87.3% | W&B 同時列出 Claude Opus 4.6 為 77.8%。[ |
| 多模態 | 內部多模態評測 | 59.0% | W&B 將此描述為內部評測,並列出 Claude Opus 4.6 為 27.1%。[ |
| 網路安全 | Cybench | pass@1 = 1.00 | Authmind 描述 Cybench 為包含 40 道 CTF 題目的公開基準,並列出 Claude Opus 4.6 為 0.89。[ |
| 網路安全 | CyberGym | 0.83 | Authmind 稱 CyberGym 評估 AI 代理在 1,507 個真實開源任務中的目標式漏洞重現能力,並列出 Claude Opus 4.6 為 0.67。[ |
| 推理 | GPQA Diamond | 94.6% | llm-stats 列出 Claude Opus 4.6 為 91.3%。[ |
| 推理 | Humanity’s Last Exam,未使用/使用工具 | 56.8%/64.7% | llm-stats 列出 Claude Opus 4.6 分別為 40.0% 與 53.1%。[ |
| 終端機代理 | Terminal-Bench 配置 | 92.1% | llm-stats 將此成績連到 Terminus-2 harness、最高強度 adaptive thinking、每題 100 萬 token 預算、延長至 4 小時的 timeout,以及 Terminal-Bench 2.1 更新。[ |
| 多任務知識 | MMMLU | 92.7 | R&D World 報導,這個數字與 Gemini 3.1 Pro 的 92.6–93.6 區間重疊,也是「18 項中 17 項領先」說法中的唯一例外。[ |
官方材料真正確認了什麼
目前最明確的官方資訊,是 Claude Mythos Preview 的定位與存取方式:Anthropic 文件稱它是 Project Glasswing 的一部分,作為防禦性網路安全工作流程的研究預覽模型提供,且採邀請制、沒有自助註冊。[13]
Anthropic 的 Project Glasswing 頁面則把 Claude Mythos Preview 描述為通用型 frontier model,並稱它是 Anthropic 目前在 coding 與 agentic tasks 上最有能力的模型;該頁也把它的網路安全能力,連結到模型能深入理解、修改複雜軟體,進而找出並修補漏洞的能力。[16]
系統卡來源則將 Claude Mythos Preview 描述為新的大型語言模型與 frontier AI model,能力涵蓋軟體工程、推理、電腦使用、知識工作與研究協助等領域。[18]
換句話說:官方資料支撐的是模型定位、使用情境與能力範圍;這裡列出的許多精確分數,則主要透過第三方來源可見。[6][
9][
25][
27]
為什麼 SWE-bench 93.9% 會成為標題數字
對軟體團隊而言,SWE-bench Verified 是最直覺的關注點。W&B 報導 Claude Mythos Preview 在 SWE-bench Verified 達 93.9%,並將 Claude Opus 4.6 的比較值列為 80.8%。[6] 對正在觀察 AI coding agent 的人來說,這類測試比單純聊天或知識問答更貼近「能不能修程式、處理實際 repo 問題」的期待。
多語程式能力也同樣突出:W&B 報導 Mythos Preview 在 SWE-bench Multilingual 達 87.3%,高於同文中列出的 Opus 4.6 的 77.8%。[6] 這讓它看起來不像只在單一英文程式測試場景中表現亮眼。
不過,SWE-bench 高分不等於在每個公司內部 repo、每套 CI/CD、每種 code review 流程中都能有同樣效果。對 Claude Mythos Preview 來說,限制又更明顯:外部團隊無法像一般 API 模型那樣直接自助註冊測試。[13]
網路安全分數很強,但場景很特殊
資安指標同樣醒目。Authmind 報導 Claude Mythos Preview 在 Cybench 達到 pass@1 = 1.00;該文將 Cybench 描述為由 40 道 CTF 題目組成的公開基準。CTF 通常指 Capture the Flag,是資安攻防與漏洞解題常見的競賽型任務。[27]
CyberGym 的數字也很高:Authmind 報導 Mythos Preview 得分 0.83,並稱該評測測的是 AI 代理在 1,507 個真實開源軟體任務中的目標式漏洞重現能力。[27]
這與 Anthropic 對 Mythos Preview 的官方定位相互呼應:API 文件明確將它放在 Project Glasswing 的防禦性網路安全工作流程中。[13] Project Glasswing 頁面也指出,它的資安能力來自更廣泛的軟體理解與修改能力,包括找出及修補漏洞。[
16]
但這裡仍要分清楚:CTF 題目與漏洞重現是高度特定的測試形式。[27] 它們能說明模型在安全分析與程式推理上的潛力,卻不能取代任何組織在自身權限控管、工具限制、合規責任與安全邊界下的實測。
推理、多模態與終端機代理:設定比數字更重要
推理類分數也很強。llm-stats 列出 Mythos Preview 在 GPQA Diamond 為 94.6%,在 Humanity’s Last Exam 未使用工具時為 56.8%,使用工具時為 64.7%。[25] HLE 把有無工具分開列,是很重要的細節:工具存取會大幅影響模型表現,也會影響不同模型之間的可比性。
Terminal-Bench 更是如此。llm-stats 報導 Mythos Preview 可達 92.1%,但同時說明該設定包含 Terminus-2 harness、最高強度 adaptive thinking、每題 100 萬 token 預算、延長到 4 小時的 timeout,以及 Terminal-Bench 2.1 更新。[25] 這不是附註小字,而是解讀成績的一部分:代理式基準常常非常依賴時間、上下文長度、工具權限與計算預算。
多模態分數也應謹慎看待。W&B 報導 Mythos Preview 在內部多模態評測達 59.0%,而 Opus 4.6 為 27.1%。[6] 另一方面,llm-stats 也提醒,SWE-bench Multimodal 使用內部實作,分數不能直接與公開 leaderboard 結果比較。[
25]
為什麼不能把這些分數當一般排行榜
主要有四個原因:
-
存取受限。 Claude Mythos Preview 依 Anthropic 文件是邀請制研究預覽模型,沒有 self-serve 自助註冊。[
13] 這讓一般開發團隊難以獨立重現成績。
-
來源混合。 這批資料中的官方來源主要確認模型定位、存取方式與能力領域。[
13][
16][
18] 多數精確分數則來自第三方整理或報導。[
6][
9][
25][
27]
-
有內部或特殊測試配置。 多模態分數被描述為內部評測。[
6] Terminal-Bench 分數則綁定特定 harness、最高 adaptive thinking、大 token 預算與延長 timeout。[
25]
-
任務類型很明確。 Cybench 是 40 道 CTF 題目,CyberGym 是 1,507 個真實開源任務中的漏洞重現評估。[
27] 這些都是重要訊號,但不等於涵蓋所有企業軟體工程或安全營運場景。
結論
從已報導分數看,Claude Mythos Preview 確實非常突出:SWE-bench Verified 93.9%、SWE-bench Multilingual 87.3%、內部多模態評測 59.0%、CyberGym 0.83,以及 Cybench pass@1 = 1.00。[6][
27]
但解讀這些數字時,最關鍵的不是「它是不是第一名」,而是「這些分數是在什麼存取條件與測試配置下產生」。Claude Mythos Preview 依 Anthropic 文件屬於 Project Glasswing 的邀請制研究預覽模型,並不是一般可自由使用的標準產品模型。[13] 因此,它的基準成績可以視為對 coding、代理式任務與防禦資安能力的強烈訊號;但不應被簡化成完全公開、人人可重現的排行榜結果。




