studioglobal
热门发现
答案已发布7 来源

Claude Mythos 基准成绩:93.9% SWE-bench 背后的含义与局限

Claude Mythos Preview 最显眼的成绩是 SWE bench Verified 93.9%;但 Anthropic 将它列为 Project Glasswing 的邀请制研究预览模型,而非普通自助可用模型。[6][13] 其他报道成绩包括 SWE bench Multilingual 87.3%、内部多模态评测 59.0%、CyberGym 0.83、Cybench pass@1 = 1.00、GPQA Diamond 94.6%。[6][25][27] 这些分数说明其编码、Agent 和防御性网络安全能力很强,但因访问受限、成绩多来自第三方汇总,且部分测试采用内部或特殊配置,不能像常规公开排行榜那样直接比较...

17K0
Abstrakte KI-Benchmark-Grafik zu Claude Mythos Preview mit Code- und Score-Elementen
Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahinterstecktSymbolbild: Die Debatte um Claude Mythos dreht sich weniger um einen einzelnen Score als um die Vergleichbarkeit der Evaluationsbedingungen.
AI 提示

Create a landscape editorial hero image for this Studio Global article: Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahintersteckt. Article summary: Claude Mythos Preview wird vor allem durch 93,9 % auf SWE bench Verified auffällig; weitere berichtete Werte sind 87,3 % auf SWE bench Multilingual und 59,0 % in einer internen multimodalen Evaluation.. Topic tags: ai, anthropic, claude, benchmarks, coding. Reference image context from search candidates: Reference image 1: visual subject "# Claude Mythos Preview Benchmarks – The AI That Scored 93.9% on SWE-bench and Still Won’t Be Released. On April 7, 2026, Anthropic quietly released something extraordinary — and t" source context "Claude Mythos Preview Benchmarks - The AI That Scored 93.9% on ..." Reference image 2: visual subject "A score of 93.9% means Claude Mythos correctly resolved approximately 470 of those 500 real-world GitH

openai.com

Claude Mythos Preview 的看点,不只是又一个 Claude 模型出现在排行榜上。按照 Anthropic 的 Claude API 文档,它是 Project Glasswing 下用于防御性网络安全工作流的独立研究预览模型;访问需要邀请,也没有自助注册入口。[13] 因此,下面这些分数可以帮助判断模型能力,但更适合被看作“能力信号”,而不是人人都能立刻复现的公开榜单成绩。

先看关键分数

目前能看到的具体分数,在这组资料中主要来自 W&B、R&D World、llm-stats、Authmind 等第三方汇总;这些来源引用或整理了 Anthropic 数据、系统卡信息或各自的评测解读。[6][9][25][27]

方向Benchmark报道的 Claude Mythos Preview 成绩怎么看
编码SWE-bench Verified93.9%[6]W&B 同时列出 Claude Opus 4.6 的对照值为 80.8%。[6]
多语言编码SWE-bench Multilingual87.3%[6]W&B 给出的 Opus 4.6 对照值为 77.8%。[6]
多模态内部多模态评测59.0%[6]W&B 将其描述为内部评测,并列出 Opus 4.6 为 27.1%。[6]
网络安全Cybenchpass@1 = 1.00[27]Authmind 称 Cybench 是包含 40 道 CTF 挑战的公开基准,并列出 Opus 4.6 为 0.89。[27]
网络安全CyberGym0.83[27]Authmind 称 CyberGym 评估 AI Agent 在 1,507 个真实开源软件任务中的定向漏洞复现能力,并列出 Opus 4.6 为 0.67。[27]
推理GPQA Diamond94.6%[25]llm-stats 给出的 Opus 4.6 对照值为 91.3%。[25]
推理Humanity’s Last Exam,无工具 / 有工具56.8% / 64.7%[25]llm-stats 给出的 Opus 4.6 对照值分别为 40.0% 和 53.1%。[25]
终端 AgentTerminal-Bench 配置92.1%[25]llm-stats 将该分数与 Terminus-2 Harness、最高档 adaptive thinking、每任务 100 万 Token 预算、4 小时超时和 Terminal-Bench 2.1 更新绑定在一起。[25]
多任务知识MMMLU92.7[9]R&D World 称 Gemini 3.1 Pro 的 92.6–93.6 区间与 Mythos 的 92.7 重叠,这是 18 项中所谓 17 项领先说法里的例外。[9]

官方资料真正确认了什么

最明确的官方信息,是 Claude Mythos Preview 的定位和访问方式:它是 Project Glasswing 的防御性网络安全研究预览模型,采用邀请制,没有 self-serve 自助注册。[13]

Anthropic 的 Project Glasswing 页面还把 Claude Mythos Preview 描述为通用前沿模型,并称它是 Anthropic 在编码和 Agent 类任务上能力最强的模型;该页面同时解释说,它在网络安全上的强项来自更广泛的软件理解与修改能力,因为能深入理解并修改复杂软件的模型,也更有能力发现和修复漏洞。[16]

系统卡资料则把 Claude Mythos Preview 描述为 Anthropic 的新大型语言模型和前沿 AI 模型,能力覆盖软件工程、推理、计算机使用、知识工作和研究辅助等方向。[18] 换句话说,官方资料支撑的是模型定位与能力范围;上表里的大量具体分数,在这组资料中主要是通过第三方汇总可见。[6][9][25][27]

为什么 93.9% 会成为头条分数

对软件团队来说,SWE-bench Verified 的 93.9% 自然最抢眼。W&B 不仅给出 Claude Mythos Preview 的这一成绩,也把 Claude Opus 4.6 的对照值列为 80.8%。[6] 在同一资料中,Mythos Preview 在 SWE-bench Multilingual 上达到 87.3%,高于 Opus 4.6 的 77.8%,说明被报道的优势并不只出现在单一英语编码设置中。[6]

但这不等于模型在每个代码库、每套工具链、每种代码评审流程下都会表现相同。尤其是 Claude Mythos Preview 并非普通开发者可直接自助调用的模型;Anthropic 明确表示其访问需要邀请,没有自助注册。[13]

网络安全分数很强,但场景也很特殊

网络安全方向的成绩同样醒目。Authmind 报道称,Claude Mythos Preview 在 Cybench 上达到 pass@1 = 1.00;该来源把 Cybench 描述为一个由 40 道 CTF 挑战构成的公开基准。[27] 在 CyberGym 上,Authmind 给出的 Mythos Preview 成绩为 0.83,并称该评测覆盖 1,507 个真实开源软件任务中的定向漏洞复现。[27]

这些结果与 Anthropic 的官方定位相吻合:Claude API 文档将 Mythos Preview 放在 Project Glasswing 的防御性网络安全工作流中。[13] Anthropic 的 Project Glasswing 页面也把它的网络安全能力与深入理解、修改复杂软件以及发现和修复漏洞的能力联系起来。[16]

不过,CTF 挑战和漏洞复现任务毕竟是特定评测环境。它们是很有价值的安全能力信号,但不能替代企业或机构在自身安全规则、工具限制、审计流程和责任边界下进行评估。

推理、多模态与终端 Agent:配置细节很关键

在推理方向,llm-stats 报道 Claude Mythos Preview 在 GPQA Diamond 上达到 94.6%,在 Humanity’s Last Exam 上无工具为 56.8%、有工具为 64.7%。[25] HLE 分数被拆成无工具和有工具两种情况,这一点很重要:一旦允许模型调用工具,成绩就不再只是“模型本体能力”的简单比较。

Terminal-Bench 的 92.1% 更需要看配置。llm-stats 说明,这一结果与 Terminus-2 Harness、最高档 adaptive thinking、每任务 100 万 Token 预算、扩展到 4 小时的超时限制,以及 Terminal-Bench 2.1 更新有关。[25] 对 Agent 类评测来说,这些不是脚注,而是结果本身的一部分:时间、上下文、工具和预算都会显著影响模型表现。

多模态成绩也应谨慎解读。W&B 报道 Claude Mythos Preview 在内部多模态评测中为 59.0%,而 Opus 4.6 为 27.1%。[6] 另据 llm-stats,SWE-bench Multimodal 使用内部实现,其分数不能直接与公开排行榜结果比较。[25]

为什么不能把这些分数当成普通公开榜单

主要限制有四点:

  1. 访问受限。 Anthropic 明确称 Claude Mythos Preview 是邀请制研究预览模型,没有自助注册入口。[13] 这让普通开发团队难以独立复测。

  2. 来源结构混合。 官方资料主要确认模型状态、项目定位和能力范围。[13][16][18] 许多具体分数在这组材料中主要通过第三方来源出现。[6][9][25][27]

  3. 部分评测为内部或特殊配置。 多模态成绩被 W&B 描述为内部评测。[6] Terminal-Bench 分数则与特定 Harness、最高档 thinking、巨大 Token 预算和更长超时设置绑定。[25]

  4. 任务类别边界清晰。 Cybench 被描述为 40 道 CTF 挑战,CyberGym 被描述为 1,507 个真实开源软件任务中的定向漏洞复现。[27] 这些是重要评测,但不是所有软件开发或安全运营场景的完整代表。

结论

只看数字,Claude Mythos Preview 的报道成绩确实很强:SWE-bench Verified 93.9%、SWE-bench Multilingual 87.3%、内部多模态评测 59.0%、CyberGym 0.83、Cybench pass@1 = 1.00。[6][27]

但真正需要记住的是它的身份:Anthropic 把 Claude Mythos Preview 定位为 Project Glasswing 下的邀请制研究预览模型,而不是普通公开可用的标准模型。[13] 因此,最稳妥的读法是:这些分数表明 Claude Mythos Preview 在编码、Agent 和防御性网络安全方向具备很强能力,但它们并不等同于一个完全公开、可复现、可横向比较的排行榜名次。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

  • Claude Mythos Preview 最显眼的成绩是 SWE bench Verified 93.9%;但 Anthropic 将它列为 Project Glasswing 的邀请制研究预览模型,而非普通自助可用模型。[6][13]
  • 其他报道成绩包括 SWE bench Multilingual 87.3%、内部多模态评测 59.0%、CyberGym 0.83、Cybench pass@1 = 1.00、GPQA Diamond 94.6%。[6][25][27]
  • 这些分数说明其编码、Agent 和防御性网络安全能力很强,但因访问受限、成绩多来自第三方汇总,且部分测试采用内部或特殊配置,不能像常规公开排行榜那样直接比较。[6][13][25][27]

人们还问

“Claude Mythos 基准成绩:93.9% SWE-bench 背后的含义与局限”的简短答案是什么?

Claude Mythos Preview 最显眼的成绩是 SWE bench Verified 93.9%;但 Anthropic 将它列为 Project Glasswing 的邀请制研究预览模型,而非普通自助可用模型。[6][13]

首先要验证的关键点是什么?

Claude Mythos Preview 最显眼的成绩是 SWE bench Verified 93.9%;但 Anthropic 将它列为 Project Glasswing 的邀请制研究预览模型,而非普通自助可用模型。[6][13] 其他报道成绩包括 SWE bench Multilingual 87.3%、内部多模态评测 59.0%、CyberGym 0.83、Cybench pass@1 = 1.00、GPQA Diamond 94.6%。[6][25][27]

接下来在实践中我应该做什么?

这些分数说明其编码、Agent 和防御性网络安全能力很强,但因访问受限、成绩多来自第三方汇总,且部分测试采用内部或特殊配置,不能像常规公开排行榜那样直接比较。[6][13][25][27]

接下来我应该探索哪个相关主题?

继续“Claude Security 公测版详解:Anthropic 的 AI 代码漏洞扫描工具”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较?

对照“Grok 4.3 API 解读:1M 上下文、低 token 价与语音平台野心”交叉检查此答案。

打开相关页面

继续你的研究

研究对话

研究问题

Was sind die Benchmarks von Claude Mythos?

Studio Global AI30 来源

引用的答案

Claude Mythos hat laut den vorliegenden Belegen vor allem öffentlich diskutierte Benchmark-Werte für Coding-, multimodale und mehrsprachige Aufgaben. Die belastbarste Information ist jedoch eingeschränkt: Anthropic beschreibt Claude Mythos Preview als ein separates Research-Preview-Modell für defensive Cybersecurity-Workflows mit Einladungspflicht, nicht als allgemein verfügbares Standardmodell.[1]

Verfügbare Benchmark-Angaben

  • SWE-bench: 93,9% werden in mehreren Drittquellen als Benchmark-Wert für Claude Mythos genannt.[3][5]

  • Multimodal: 59,0% werden als interner multimodaler Evaluationswert für Mythos Preview genannt, gegenüber 27,1% für Opus 4.6.[4]

  • SWE-bench Multilingual: 87,3% werden für Mythos Preview genannt.[4]

  • Terminal-Bench 2.0: Eine Drittquelle erwähnt, dass Terminal-Bench 2.0 mit Terminus-2-Harness, maximalem adaptivem Thinking und einem 1M-Token-Budget pro Aufgabe ausgeführt wurde, nennt im vorliegenden Ausschnitt aber keinen konkreten Score.[7]

Einordnung und Unsicherheit

  • Anthropic selbst bestätigt in den verfügbaren Belegen die Existenz und den eingeschränkten Zugang von Claude Mythos Preview, aber der bereitgestellte offizielle Ausschnitt enthält keine konkreten Benchmark-Zahlen.[1]

  • Die konkreten Scores stammen in den vorliegenden Belegen überwiegend aus Drittquellen oder Snippets, nicht aus vollständig zitierbaren offiziellen Benchmark-Tabellen.[3][4][5]

  • Daher gilt: Insufficient evidence für eine vollständig verifizierte, offizielle Benchmark-Liste von Claude Mythos anhand der bereitgestellten Quellen.

来源

  • [6] Claude Mythos Benchmark Scores | ml-news – Weights & Biases - Wandbwandb.ai

    Image 66 Multimodal and multilingual capabilities The model’s improvements extend to multimodal and multilingual tasks. Internal multimodal evaluations show Mythos Preview scoring 59.0% compared to Opus 4.6’s 27.1%, indicating superior handling of diverse i...

  • [9] Claude Mythos leads 17 of 18 benchmarks Anthropic ... - R&D Worldrdworldonline.com

    Research & Development World Claude Mythos leads 17 of 18 benchmarks Anthropic measured. Muse Spark put Meta back in the frontier club, and OpenAI’s ‘Spud’ model is reportedly near launch By Brian Buntz Anthropic is not planning on publicly releasing it, bu...

  • [13] Models overview - Claude API Docsdocs.anthropic.com

    Models overview - Claude API Docs . Claude Mythos Preview is offered separately as a research preview model for defensive cybersecurity workflows as part of Project Glasswing. Access is invitation-only and there is no self-serve sign-up. Models with the sam...

  • [16] Project Glasswing - Anthropicanthropic.com

    01 /08 Claude Mythos Preview Claude Mythos Preview is a general-purpose frontier model from Anthropic, our most capable yet for coding and agentic tasks. Its strength in cybersecurity is a direct result of that broader capability: a model that can deeply un...

  • [18] [PDF] Claude Mythos Preview System Card - Anthropicwww-cdn.anthropic.com

    Red Teaming benchmark for tool use​ 232 8.3.2.2 Robustness against adaptive attackers across surfaces​ 233 8.3.2.2.1 Coding​ 233 8.3.2.2.2 Computer use​ 234 8.3.2.2.3 Browser use​ 235 8.4 Per-question automated welfare interview results​ 236 8.5 Blocklist u...

  • [25] Claude Mythos Preview: Benchmarks, Pricing & Project Glasswingllm-stats.com

    \SWE-bench Multimodal uses an internal implementation; scores are not directly comparable to public leaderboard results. Terminal-Bench 2.0 was run with the Terminus-2 harness, adaptive thinking at maximum effort, and a 1M token budget per task. With extend...

  • [27] When a Lab Withholds Its Best Model: What the Claude Mythos System Card Signals for Cybersecurityauthmind.com

    On Cybench (a public benchmark drawing from 40 CTF challenges across four major competitions), Claude Mythos Preview achieved a perfect pass@1 score of 1.00. Claude Opus 4.6, the prior generation, scored 0.89. On CyberGym, which evaluates AI agents on targe...

Claude Mythos 基准成绩:93.9% SWE-bench 背后的含义与局限 | 回答 | Studio Global