studioglobal
熱門發現
答案已發布7 來源

Claude Mythos Benchmark 重點:93.9% SWE-bench,同點解唔應該硬比

Claude Mythos Preview 最搶眼分數係 SWE bench Verified 93.9%,但 Anthropic 將它列為 Project Glasswing 的邀請制 research preview。 其他報告值包括 SWE bench Multilingual 87.3%、內部 multimodal evaluation 59.0%、CyberGym 0.83,以及 Cybench pass@1 = 1.00。

17K0
Abstrakte KI-Benchmark-Grafik zu Claude Mythos Preview mit Code- und Score-Elementen
Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahinterstecktSymbolbild: Die Debatte um Claude Mythos dreht sich weniger um einen einzelnen Score als um die Vergleichbarkeit der Evaluationsbedingungen.
AI 提示

Create a landscape editorial hero image for this Studio Global article: Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahintersteckt. Article summary: Claude Mythos Preview wird vor allem durch 93,9 % auf SWE bench Verified auffällig; weitere berichtete Werte sind 87,3 % auf SWE bench Multilingual und 59,0 % in einer internen multimodalen Evaluation.. Topic tags: ai, anthropic, claude, benchmarks, coding. Reference image context from search candidates: Reference image 1: visual subject "# Claude Mythos Preview Benchmarks – The AI That Scored 93.9% on SWE-bench and Still Won’t Be Released. On April 7, 2026, Anthropic quietly released something extraordinary — and t" source context "Claude Mythos Preview Benchmarks - The AI That Scored 93.9% on ..." Reference image 2: visual subject "A score of 93.9% means Claude Mythos correctly resolved approximately 470 of those 500 real-world GitH

openai.com

如果只睇一個數,Claude Mythos Preview 最搶眼一定係 SWE-bench Verified 93.9%。但真正重點係:呢個模型唔係公開榜單上另一個大家可以即刻試嘅 Claude。Anthropic 在 Claude API 文件中,將 Claude Mythos Preview 列為 Project Glasswing 之下、面向防守型網絡安全工作流程嘅獨立 research-preview 模型;存取採邀請制,亦沒有自助登記。[13]

所以,以下 benchmark 應該當成「能力訊號」去睇,而唔係一張可以完全照抄、人人都能即時複測嘅公開排行榜。

先分清:官方確認咗咩?

官方最清楚確認嘅,是 Claude Mythos Preview 嘅身份同定位:它係 Project Glasswing 入面、用於防守型網絡安全工作流程嘅 research-preview 模型,並且只限邀請使用。[13]

Anthropic 在 Project Glasswing 頁面亦將 Claude Mythos Preview 描述為一個通用前沿模型,特別擅長 coding 同 agentic tasks;Anthropic 同時解釋,佢喺網絡安全方面嘅強項,來自更廣泛地理解、修改複雜軟件,以及找出和修補漏洞嘅能力。[16]

系統卡來源則將 Claude Mythos Preview 描述為一個新大型語言模型/前沿 AI 模型,能力範圍包括 software engineering、reasoning、computer use、knowledge work 同研究輔助等。[18]

換句話講:官方資料主要支撐模型定位同能力範圍;至於下面列出嘅具體分數,喺目前資料中主要係透過第三方整理、報道或引用系統卡數據而見到。[6][9][25][27]

主要 benchmark 分數一覽

範疇BenchmarkClaude Mythos Preview 報告值點樣理解
CodingSWE-bench Verified93.9%W&B 同時列出 Claude Opus 4.6 為 80.8%。[6]
多語言 codingSWE-bench Multilingual87.3%W&B 同時列出 Claude Opus 4.6 為 77.8%。[6]
Multimodal內部 multimodal evaluation59.0%W&B 指這是內部評測,Claude Opus 4.6 為 27.1%。[6]
網絡安全Cybenchpass@1 = 1.00Authmind 將 Cybench 描述為由 40 個 CTF challenge 組成的公開 benchmark,並列出 Claude Opus 4.6 為 0.89。[27]
網絡安全CyberGym0.83Authmind 指 CyberGym 評估 AI agent 在 1,507 個真實開源軟件任務中重現指定漏洞,Claude Opus 4.6 為 0.67。[27]
ReasoningGPQA Diamond94.6%llm-stats 列出 Claude Opus 4.6 為 91.3%。[25]
ReasoningHumanity’s Last Exam,無工具/有工具56.8% / 64.7%llm-stats 列出 Claude Opus 4.6 為 40.0%/53.1%。[25]
Terminal agentTerminal-Bench 設定92.1%llm-stats 將此分數連到 Terminus-2 harness、最高 adaptive thinking、每題 1M token budget、4 小時 timeout 同 Terminal-Bench 2.1 更新。[25]
多任務知識MMMLU92.7R&D World 報道指,這個數值與 Gemini 3.1 Pro 的 92.6 至 93.6 區間重疊,亦係「18 項中領先 17 項」說法入面唯一例外。[9]

點解 93.9% 會變成 headline score?

對開發團隊嚟講,SWE-bench Verified 最易成為焦點,因為它直接指向 coding、修 bug、處理軟件工程任務呢類大家最關心嘅能力。W&B 報告 Claude Mythos Preview 在 SWE-bench Verified 達 93.9%,並將其與 Claude Opus 4.6 的 80.8% 作比較。[6]

另一個值得留意嘅係多語言 coding。W&B 報告 Mythos Preview 在 SWE-bench Multilingual 達 87.3%,對比 Claude Opus 4.6 的 77.8%。[6] 呢點令「強項唔只係單一英文 coding 測試」呢個解讀更有說服力。

不過,93.9% 仍然唔代表你公司任何 repo、任何 CI/CD 流程、任何 code review 標準都會得到同樣效果。再加上 Anthropic 文件列明 Mythos Preview 係邀請制、沒有 self-serve sign-up,外部團隊並唔能夠像一般 API 模型咁自行大量複測。[13]

網絡安全高分:強,但係特定場景

網絡安全分數同樣搶眼。Authmind 報告 Claude Mythos Preview 在 Cybench 達到 pass@1 = 1.00;該文將 Cybench 描述為由四個主要比賽、合共 40 個 CTF challenge 組成的公開 benchmark。[27]

CyberGym 方面,Authmind 報告 Mythos Preview 得分 0.83,並指 CyberGym 係用 1,507 個真實開源軟件任務,評估 AI agent 能否重現指定漏洞。[27]

呢啲結果同 Anthropic 對 Mythos Preview 嘅定位相符:API 文件將佢放喺 Project Glasswing 的防守型網絡安全工作流程之中,[13] 而 Project Glasswing 頁面亦將網絡安全能力連到模型理解、修改複雜軟件,以及找出和修補漏洞嘅能力。[16]

但要小心:CTF challenge 同漏洞重現,都係特定評測場景。佢哋係重要訊號,尤其對安全分析同 code review 有參考價值;但唔等於已經覆蓋某間機構實際生產環境入面嘅權限規則、工具限制、審批流程同責任邊界。

Reasoning、multimodal 同 terminal agent:設定好關鍵

除咗 coding 同 cybersecurity,第三方資料亦報告 Mythos Preview 有強 reasoning 分數。llm-stats 列出 GPQA Diamond 為 94.6%,Humanity’s Last Exam 無工具為 56.8%,有工具為 64.7%。[25]

Humanity’s Last Exam 分開「有工具」同「無工具」列出,其實好重要。模型可唔可以用工具,會直接影響評測結果;如果兩個模型喺工具權限、時間、上下文長度上唔一樣,分數就唔應該硬碰硬比較。

Terminal-Bench 更加係一個例子。llm-stats 報告 92.1% 這個分數時,同時提到相關設定包括 Terminus-2 harness、最高 adaptive thinking、每題 1M token budget、延長至 4 小時 timeout,以及 Terminal-Bench 2.1 更新。[25] 對 agent benchmark 嚟講,呢啲唔係小字註腳,而係評測本身嘅一部分。

Multimodal 分數亦要咁睇。W&B 報告 Mythos Preview 在一個內部 multimodal evaluation 中達 59.0%,Claude Opus 4.6 則為 27.1%。[6] 另外,llm-stats 亦提醒,SWE-bench Multimodal 使用內部實作,分數不能直接同公開 leaderboard 結果比較。[25]

點解唔應該當成普通 leaderboard 分數?

最少有四個限制要記住:

  1. 存取受限。 Anthropic 文件列明 Claude Mythos Preview 係邀請制 research-preview 模型,而且沒有自助登記。[13] 一般開發者或安全團隊好難自行重現完整測試。

  2. 來源混合。 目前官方來源主要支持模型身份、定位同能力範圍。[13][16][18] 具體分數多數係透過 W&B、R&D World、llm-stats、Authmind 等第三方資料見到。[6][9][25][27]

  3. 部分評測係內部或特殊設定。 Multimodal 分數被描述為內部評測;Terminal-Bench 分數則涉及特定 harness、最高 thinking、巨大 token budget 同延長 timeout。[6][25]

  4. 任務類型有邊界。 Cybench 係 40 個 CTF challenge;CyberGym 係 1,507 個真實開源任務中的指定漏洞重現。[27] 呢啲任務有代表性,但唔等於涵蓋所有企業安全場景。

結論:好強,但唔好當成完全公開可複現排名

Claude Mythos Preview 在目前報告出嚟嘅 benchmark 入面,確實非常突出:SWE-bench Verified 93.9%、SWE-bench Multilingual 87.3%、內部 multimodal evaluation 59.0%、CyberGym 0.83,以及 Cybench pass@1 = 1.00。[6][27]

但最重要嘅解讀唔係「佢係咪榜首」,而係「呢啲分數喺咩條件下產生」。Claude Mythos Preview 係 Anthropic 放入 Project Glasswing 的邀請制 research preview,唔係一般人可以即時自助開通嘅標準產品模型。[13]

如果你係開發或安全團隊,較穩陣嘅睇法係:把 Mythos Preview 當成下一代 coding agent、terminal agent 同防守型網絡安全模型能力嘅強烈訊號;但唔好將任何單一 benchmark 分數,直接等同你自己 repo、工具鏈同審批流程入面嘅實際表現。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

  • Claude Mythos Preview 最搶眼分數係 SWE bench Verified 93.9%,但 Anthropic 將它列為 Project Glasswing 的邀請制 research preview。
  • 其他報告值包括 SWE bench Multilingual 87.3%、內部 multimodal evaluation 59.0%、CyberGym 0.83,以及 Cybench pass@1 = 1.00。
  • 呢啲分數顯示強勁 coding、agentic 同防守型網絡安全能力;但因為來源混合、部分評測設定特殊,而且外界難以自助測試,唔應該當成一般公開排行榜直接比較。

人們還問

「Claude Mythos Benchmark 重點:93.9% SWE-bench,同點解唔應該硬比」的簡短答案是什麼?

Claude Mythos Preview 最搶眼分數係 SWE bench Verified 93.9%,但 Anthropic 將它列為 Project Glasswing 的邀請制 research preview。

首先要驗證的關鍵點是什麼?

Claude Mythos Preview 最搶眼分數係 SWE bench Verified 93.9%,但 Anthropic 將它列為 Project Glasswing 的邀請制 research preview。 其他報告值包括 SWE bench Multilingual 87.3%、內部 multimodal evaluation 59.0%、CyberGym 0.83,以及 Cybench pass@1 = 1.00。

接下來在實務上我該做什麼?

呢啲分數顯示強勁 coding、agentic 同防守型網絡安全能力;但因為來源混合、部分評測設定特殊,而且外界難以自助測試,唔應該當成一般公開排行榜直接比較。

接下來我應該探索哪個相關主題?

繼續“Claude Security 公測版:Anthropic 點樣用 AI 幫企業掃 code 漏洞”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較?

對照「xAI Grok 4.3 API 解讀:1M context、低 token 價與語音平台野心」交叉檢查此答案。

開啟相關頁面

繼續你的研究

研究對話

研究問題

Was sind die Benchmarks von Claude Mythos?

Studio Global AI30 來源

引用的答案

Claude Mythos hat laut den vorliegenden Belegen vor allem öffentlich diskutierte Benchmark-Werte für Coding-, multimodale und mehrsprachige Aufgaben. Die belastbarste Information ist jedoch eingeschränkt: Anthropic beschreibt Claude Mythos Preview als ein separates Research-Preview-Modell für defensive Cybersecurity-Workflows mit Einladungspflicht, nicht als allgemein verfügbares Standardmodell.[1]

Verfügbare Benchmark-Angaben

  • SWE-bench: 93,9% werden in mehreren Drittquellen als Benchmark-Wert für Claude Mythos genannt.[3][5]

  • Multimodal: 59,0% werden als interner multimodaler Evaluationswert für Mythos Preview genannt, gegenüber 27,1% für Opus 4.6.[4]

  • SWE-bench Multilingual: 87,3% werden für Mythos Preview genannt.[4]

  • Terminal-Bench 2.0: Eine Drittquelle erwähnt, dass Terminal-Bench 2.0 mit Terminus-2-Harness, maximalem adaptivem Thinking und einem 1M-Token-Budget pro Aufgabe ausgeführt wurde, nennt im vorliegenden Ausschnitt aber keinen konkreten Score.[7]

Einordnung und Unsicherheit

  • Anthropic selbst bestätigt in den verfügbaren Belegen die Existenz und den eingeschränkten Zugang von Claude Mythos Preview, aber der bereitgestellte offizielle Ausschnitt enthält keine konkreten Benchmark-Zahlen.[1]

  • Die konkreten Scores stammen in den vorliegenden Belegen überwiegend aus Drittquellen oder Snippets, nicht aus vollständig zitierbaren offiziellen Benchmark-Tabellen.[3][4][5]

  • Daher gilt: Insufficient evidence für eine vollständig verifizierte, offizielle Benchmark-Liste von Claude Mythos anhand der bereitgestellten Quellen.

來源

  • [6] Claude Mythos Benchmark Scores | ml-news – Weights & Biases - Wandbwandb.ai

    Image 66 Multimodal and multilingual capabilities The model’s improvements extend to multimodal and multilingual tasks. Internal multimodal evaluations show Mythos Preview scoring 59.0% compared to Opus 4.6’s 27.1%, indicating superior handling of diverse i...

  • [9] Claude Mythos leads 17 of 18 benchmarks Anthropic ... - R&D Worldrdworldonline.com

    Research & Development World Claude Mythos leads 17 of 18 benchmarks Anthropic measured. Muse Spark put Meta back in the frontier club, and OpenAI’s ‘Spud’ model is reportedly near launch By Brian Buntz Anthropic is not planning on publicly releasing it, bu...

  • [13] Models overview - Claude API Docsdocs.anthropic.com

    Models overview - Claude API Docs . Claude Mythos Preview is offered separately as a research preview model for defensive cybersecurity workflows as part of Project Glasswing. Access is invitation-only and there is no self-serve sign-up. Models with the sam...

  • [16] Project Glasswing - Anthropicanthropic.com

    01 /08 Claude Mythos Preview Claude Mythos Preview is a general-purpose frontier model from Anthropic, our most capable yet for coding and agentic tasks. Its strength in cybersecurity is a direct result of that broader capability: a model that can deeply un...

  • [18] [PDF] Claude Mythos Preview System Card - Anthropicwww-cdn.anthropic.com

    Red Teaming benchmark for tool use​ 232 8.3.2.2 Robustness against adaptive attackers across surfaces​ 233 8.3.2.2.1 Coding​ 233 8.3.2.2.2 Computer use​ 234 8.3.2.2.3 Browser use​ 235 8.4 Per-question automated welfare interview results​ 236 8.5 Blocklist u...

  • [25] Claude Mythos Preview: Benchmarks, Pricing & Project Glasswingllm-stats.com

    \SWE-bench Multimodal uses an internal implementation; scores are not directly comparable to public leaderboard results. Terminal-Bench 2.0 was run with the Terminus-2 harness, adaptive thinking at maximum effort, and a 1M token budget per task. With extend...

  • [27] When a Lab Withholds Its Best Model: What the Claude Mythos System Card Signals for Cybersecurityauthmind.com

    On Cybench (a public benchmark drawing from 40 CTF challenges across four major competitions), Claude Mythos Preview achieved a perfect pass@1 score of 1.00. Claude Opus 4.6, the prior generation, scored 0.89. On CyberGym, which evaluates AI agents on targe...

Claude Mythos Benchmark 重點:93.9% SWE-bench,同點解唔應該硬比 | 回答 | Studio Global