studioglobal
熱門探索內容
答案已發布7 個來源

Claude Mythos 基準測試重點:93.9% SWE-bench 與比較限制

Claude Mythos Preview 最吸睛的數字是 SWE bench Verified 93.9%;但 Anthropic 將它列為 Project Glasswing 的邀請制研究預覽模型,並非一般可自由註冊使用的標準模型。 其他報導分數包括 SWE bench Multilingual 87.3%、內部多模態評測 59.0%、CyberGym 0.83,以及 Cybench pass@1 = 1.00。

17K0
Abstrakte KI-Benchmark-Grafik zu Claude Mythos Preview mit Code- und Score-Elementen
Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahinterstecktSymbolbild: Die Debatte um Claude Mythos dreht sich weniger um einen einzelnen Score als um die Vergleichbarkeit der Evaluationsbedingungen.
AI 提示詞

Create a landscape editorial hero image for this Studio Global article: Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahintersteckt. Article summary: Claude Mythos Preview wird vor allem durch 93,9 % auf SWE bench Verified auffällig; weitere berichtete Werte sind 87,3 % auf SWE bench Multilingual und 59,0 % in einer internen multimodalen Evaluation.. Topic tags: ai, anthropic, claude, benchmarks, coding. Reference image context from search candidates: Reference image 1: visual subject "# Claude Mythos Preview Benchmarks – The AI That Scored 93.9% on SWE-bench and Still Won’t Be Released. On April 7, 2026, Anthropic quietly released something extraordinary — and t" source context "Claude Mythos Preview Benchmarks - The AI That Scored 93.9% on ..." Reference image 2: visual subject "A score of 93.9% means Claude Mythos correctly resolved approximately 470 of those 500 real-world GitH

openai.com

如果只看一個數字,Claude Mythos Preview 最容易被記住的是 SWE-bench Verified 93.9%。但這款模型的重點不只是「分數很高」,而是它並不是一般開發者可直接註冊、自由測試的公開 Claude 模型。Anthropic 在 Claude API 文件中把 Claude Mythos Preview 列為 Project Glasswing 之下、面向防禦性網路安全工作流程的獨立研究預覽模型;存取採邀請制,沒有 self-serve 自助註冊。[13]

因此,以下分數更適合讀作「能力訊號」,而不是像一般公開模型排行榜那樣直接橫向比較。

先看主要分數

這批資料中,具體分數多半來自第三方整理,引用 Anthropic 資料、系統卡評估或各自的彙整。[6][9][25][27]

類別基準測試報導的 Claude Mythos Preview 成績怎麼解讀
程式能力SWE-bench Verified93.9%W&B 同時列出 Claude Opus 4.6 為 80.8%。[6]
多語程式能力SWE-bench Multilingual87.3%W&B 同時列出 Claude Opus 4.6 為 77.8%。[6]
多模態內部多模態評測59.0%W&B 將此描述為內部評測,並列出 Claude Opus 4.6 為 27.1%。[6]
網路安全Cybenchpass@1 = 1.00Authmind 描述 Cybench 為包含 40 道 CTF 題目的公開基準,並列出 Claude Opus 4.6 為 0.89。[27]
網路安全CyberGym0.83Authmind 稱 CyberGym 評估 AI 代理在 1,507 個真實開源任務中的目標式漏洞重現能力,並列出 Claude Opus 4.6 為 0.67。[27]
推理GPQA Diamond94.6%llm-stats 列出 Claude Opus 4.6 為 91.3%。[25]
推理Humanity’s Last Exam,未使用/使用工具56.8%/64.7%llm-stats 列出 Claude Opus 4.6 分別為 40.0% 與 53.1%。[25]
終端機代理Terminal-Bench 配置92.1%llm-stats 將此成績連到 Terminus-2 harness、最高強度 adaptive thinking、每題 100 萬 token 預算、延長至 4 小時的 timeout,以及 Terminal-Bench 2.1 更新。[25]
多任務知識MMMLU92.7R&D World 報導,這個數字與 Gemini 3.1 Pro 的 92.6–93.6 區間重疊,也是「18 項中 17 項領先」說法中的唯一例外。[9]

官方材料真正確認了什麼

目前最明確的官方資訊,是 Claude Mythos Preview 的定位與存取方式:Anthropic 文件稱它是 Project Glasswing 的一部分,作為防禦性網路安全工作流程的研究預覽模型提供,且採邀請制、沒有自助註冊。[13]

Anthropic 的 Project Glasswing 頁面則把 Claude Mythos Preview 描述為通用型 frontier model,並稱它是 Anthropic 目前在 coding 與 agentic tasks 上最有能力的模型;該頁也把它的網路安全能力,連結到模型能深入理解、修改複雜軟體,進而找出並修補漏洞的能力。[16]

系統卡來源則將 Claude Mythos Preview 描述為新的大型語言模型與 frontier AI model,能力涵蓋軟體工程、推理、電腦使用、知識工作與研究協助等領域。[18]

換句話說:官方資料支撐的是模型定位、使用情境與能力範圍;這裡列出的許多精確分數,則主要透過第三方來源可見。[6][9][25][27]

為什麼 SWE-bench 93.9% 會成為標題數字

對軟體團隊而言,SWE-bench Verified 是最直覺的關注點。W&B 報導 Claude Mythos Preview 在 SWE-bench Verified 達 93.9%,並將 Claude Opus 4.6 的比較值列為 80.8%。[6] 對正在觀察 AI coding agent 的人來說,這類測試比單純聊天或知識問答更貼近「能不能修程式、處理實際 repo 問題」的期待。

多語程式能力也同樣突出:W&B 報導 Mythos Preview 在 SWE-bench Multilingual 達 87.3%,高於同文中列出的 Opus 4.6 的 77.8%。[6] 這讓它看起來不像只在單一英文程式測試場景中表現亮眼。

不過,SWE-bench 高分不等於在每個公司內部 repo、每套 CI/CD、每種 code review 流程中都能有同樣效果。對 Claude Mythos Preview 來說,限制又更明顯:外部團隊無法像一般 API 模型那樣直接自助註冊測試。[13]

網路安全分數很強,但場景很特殊

資安指標同樣醒目。Authmind 報導 Claude Mythos Preview 在 Cybench 達到 pass@1 = 1.00;該文將 Cybench 描述為由 40 道 CTF 題目組成的公開基準。CTF 通常指 Capture the Flag,是資安攻防與漏洞解題常見的競賽型任務。[27]

CyberGym 的數字也很高:Authmind 報導 Mythos Preview 得分 0.83,並稱該評測測的是 AI 代理在 1,507 個真實開源軟體任務中的目標式漏洞重現能力。[27]

這與 Anthropic 對 Mythos Preview 的官方定位相互呼應:API 文件明確將它放在 Project Glasswing 的防禦性網路安全工作流程中。[13] Project Glasswing 頁面也指出,它的資安能力來自更廣泛的軟體理解與修改能力,包括找出及修補漏洞。[16]

但這裡仍要分清楚:CTF 題目與漏洞重現是高度特定的測試形式。[27] 它們能說明模型在安全分析與程式推理上的潛力,卻不能取代任何組織在自身權限控管、工具限制、合規責任與安全邊界下的實測。

推理、多模態與終端機代理:設定比數字更重要

推理類分數也很強。llm-stats 列出 Mythos Preview 在 GPQA Diamond 為 94.6%,在 Humanity’s Last Exam 未使用工具時為 56.8%,使用工具時為 64.7%。[25] HLE 把有無工具分開列,是很重要的細節:工具存取會大幅影響模型表現,也會影響不同模型之間的可比性。

Terminal-Bench 更是如此。llm-stats 報導 Mythos Preview 可達 92.1%,但同時說明該設定包含 Terminus-2 harness、最高強度 adaptive thinking、每題 100 萬 token 預算、延長到 4 小時的 timeout,以及 Terminal-Bench 2.1 更新。[25] 這不是附註小字,而是解讀成績的一部分:代理式基準常常非常依賴時間、上下文長度、工具權限與計算預算。

多模態分數也應謹慎看待。W&B 報導 Mythos Preview 在內部多模態評測達 59.0%,而 Opus 4.6 為 27.1%。[6] 另一方面,llm-stats 也提醒,SWE-bench Multimodal 使用內部實作,分數不能直接與公開 leaderboard 結果比較。[25]

為什麼不能把這些分數當一般排行榜

主要有四個原因:

  1. 存取受限。 Claude Mythos Preview 依 Anthropic 文件是邀請制研究預覽模型,沒有 self-serve 自助註冊。[13] 這讓一般開發團隊難以獨立重現成績。

  2. 來源混合。 這批資料中的官方來源主要確認模型定位、存取方式與能力領域。[13][16][18] 多數精確分數則來自第三方整理或報導。[6][9][25][27]

  3. 有內部或特殊測試配置。 多模態分數被描述為內部評測。[6] Terminal-Bench 分數則綁定特定 harness、最高 adaptive thinking、大 token 預算與延長 timeout。[25]

  4. 任務類型很明確。 Cybench 是 40 道 CTF 題目,CyberGym 是 1,507 個真實開源任務中的漏洞重現評估。[27] 這些都是重要訊號,但不等於涵蓋所有企業軟體工程或安全營運場景。

結論

從已報導分數看,Claude Mythos Preview 確實非常突出:SWE-bench Verified 93.9%、SWE-bench Multilingual 87.3%、內部多模態評測 59.0%、CyberGym 0.83,以及 Cybench pass@1 = 1.00。[6][27]

但解讀這些數字時,最關鍵的不是「它是不是第一名」,而是「這些分數是在什麼存取條件與測試配置下產生」。Claude Mythos Preview 依 Anthropic 文件屬於 Project Glasswing 的邀請制研究預覽模型,並不是一般可自由使用的標準產品模型。[13] 因此,它的基準成績可以視為對 coding、代理式任務與防禦資安能力的強烈訊號;但不應被簡化成完全公開、人人可重現的排行榜結果。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

  • Claude Mythos Preview 最吸睛的數字是 SWE bench Verified 93.9%;但 Anthropic 將它列為 Project Glasswing 的邀請制研究預覽模型,並非一般可自由註冊使用的標準模型。
  • 其他報導分數包括 SWE bench Multilingual 87.3%、內部多模態評測 59.0%、CyberGym 0.83,以及 Cybench pass@1 = 1.00。
  • 這些分數顯示 Mythos 在程式、代理式任務與防禦資安上可能非常強,但因來源、測試配置與存取限制,不能簡單視為完全公開可重現的排行榜成績。

大家也會問

「Claude Mythos 基準測試重點:93.9% SWE-bench 與比較限制」的簡短答案是什麼?

Claude Mythos Preview 最吸睛的數字是 SWE bench Verified 93.9%;但 Anthropic 將它列為 Project Glasswing 的邀請制研究預覽模型,並非一般可自由註冊使用的標準模型。

最值得優先驗證的重點是什麼?

Claude Mythos Preview 最吸睛的數字是 SWE bench Verified 93.9%;但 Anthropic 將它列為 Project Glasswing 的邀請制研究預覽模型,並非一般可自由註冊使用的標準模型。 其他報導分數包括 SWE bench Multilingual 87.3%、內部多模態評測 59.0%、CyberGym 0.83,以及 Cybench pass@1 = 1.00。

接下來在實務上該怎麼做?

這些分數顯示 Mythos 在程式、代理式任務與防禦資安上可能非常強,但因來源、測試配置與存取限制,不能簡單視為完全公開可重現的排行榜成績。

下一步適合探索哪個相關主題?

繼續閱讀「Claude Security 公測版:Anthropic 的企業程式碼漏洞掃描工具」,從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較?

將這個答案與「Grok 4.3 API 解讀:1M 上下文、低 token 價格,xAI 想搶下哪個入口?」交叉比對。

開啟相關頁面

繼續深入研究

研究對話

研究問題

Was sind die Benchmarks von Claude Mythos?

Studio Global AI30 個來源

附引用的答案

Claude Mythos hat laut den vorliegenden Belegen vor allem öffentlich diskutierte Benchmark-Werte für Coding-, multimodale und mehrsprachige Aufgaben. Die belastbarste Information ist jedoch eingeschränkt: Anthropic beschreibt Claude Mythos Preview als ein separates Research-Preview-Modell für defensive Cybersecurity-Workflows mit Einladungspflicht, nicht als allgemein verfügbares Standardmodell.[1]

Verfügbare Benchmark-Angaben

  • SWE-bench: 93,9% werden in mehreren Drittquellen als Benchmark-Wert für Claude Mythos genannt.[3][5]

  • Multimodal: 59,0% werden als interner multimodaler Evaluationswert für Mythos Preview genannt, gegenüber 27,1% für Opus 4.6.[4]

  • SWE-bench Multilingual: 87,3% werden für Mythos Preview genannt.[4]

  • Terminal-Bench 2.0: Eine Drittquelle erwähnt, dass Terminal-Bench 2.0 mit Terminus-2-Harness, maximalem adaptivem Thinking und einem 1M-Token-Budget pro Aufgabe ausgeführt wurde, nennt im vorliegenden Ausschnitt aber keinen konkreten Score.[7]

Einordnung und Unsicherheit

  • Anthropic selbst bestätigt in den verfügbaren Belegen die Existenz und den eingeschränkten Zugang von Claude Mythos Preview, aber der bereitgestellte offizielle Ausschnitt enthält keine konkreten Benchmark-Zahlen.[1]

  • Die konkreten Scores stammen in den vorliegenden Belegen überwiegend aus Drittquellen oder Snippets, nicht aus vollständig zitierbaren offiziellen Benchmark-Tabellen.[3][4][5]

  • Daher gilt: Insufficient evidence für eine vollständig verifizierte, offizielle Benchmark-Liste von Claude Mythos anhand der bereitgestellten Quellen.

來源

  • [6] Claude Mythos Benchmark Scores | ml-news – Weights & Biases - Wandbwandb.ai

    Image 66 Multimodal and multilingual capabilities The model’s improvements extend to multimodal and multilingual tasks. Internal multimodal evaluations show Mythos Preview scoring 59.0% compared to Opus 4.6’s 27.1%, indicating superior handling of diverse i...

  • [9] Claude Mythos leads 17 of 18 benchmarks Anthropic ... - R&D Worldrdworldonline.com

    Research & Development World Claude Mythos leads 17 of 18 benchmarks Anthropic measured. Muse Spark put Meta back in the frontier club, and OpenAI’s ‘Spud’ model is reportedly near launch By Brian Buntz Anthropic is not planning on publicly releasing it, bu...

  • [13] Models overview - Claude API Docsdocs.anthropic.com

    Models overview - Claude API Docs . Claude Mythos Preview is offered separately as a research preview model for defensive cybersecurity workflows as part of Project Glasswing. Access is invitation-only and there is no self-serve sign-up. Models with the sam...

  • [16] Project Glasswing - Anthropicanthropic.com

    01 /08 Claude Mythos Preview Claude Mythos Preview is a general-purpose frontier model from Anthropic, our most capable yet for coding and agentic tasks. Its strength in cybersecurity is a direct result of that broader capability: a model that can deeply un...

  • [18] [PDF] Claude Mythos Preview System Card - Anthropicwww-cdn.anthropic.com

    Red Teaming benchmark for tool use​ 232 8.3.2.2 Robustness against adaptive attackers across surfaces​ 233 8.3.2.2.1 Coding​ 233 8.3.2.2.2 Computer use​ 234 8.3.2.2.3 Browser use​ 235 8.4 Per-question automated welfare interview results​ 236 8.5 Blocklist u...

  • [25] Claude Mythos Preview: Benchmarks, Pricing & Project Glasswingllm-stats.com

    \SWE-bench Multimodal uses an internal implementation; scores are not directly comparable to public leaderboard results. Terminal-Bench 2.0 was run with the Terminus-2 harness, adaptive thinking at maximum effort, and a 1M token budget per task. With extend...

  • [27] When a Lab Withholds Its Best Model: What the Claude Mythos System Card Signals for Cybersecurityauthmind.com

    On Cybench (a public benchmark drawing from 40 CTF challenges across four major competitions), Claude Mythos Preview achieved a perfect pass@1 score of 1.00. Claude Opus 4.6, the prior generation, scored 0.89. On CyberGym, which evaluates AI agents on targe...