Claude Mythos Preview 的看点,不只是又一个 Claude 模型出现在排行榜上。按照 Anthropic 的 Claude API 文档,它是 Project Glasswing 下用于防御性网络安全工作流的独立研究预览模型;访问需要邀请,也没有自助注册入口。[13] 因此,下面这些分数可以帮助判断模型能力,但更适合被看作“能力信号”,而不是人人都能立刻复现的公开榜单成绩。
先看关键分数
目前能看到的具体分数,在这组资料中主要来自 W&B、R&D World、llm-stats、Authmind 等第三方汇总;这些来源引用或整理了 Anthropic 数据、系统卡信息或各自的评测解读。[6][
9][
25][
27]
| 方向 | Benchmark | 报道的 Claude Mythos Preview 成绩 | 怎么看 |
|---|---|---|---|
| 编码 | SWE-bench Verified | 93.9%[ | W&B 同时列出 Claude Opus 4.6 的对照值为 80.8%。[ |
| 多语言编码 | SWE-bench Multilingual | 87.3%[ | W&B 给出的 Opus 4.6 对照值为 77.8%。[ |
| 多模态 | 内部多模态评测 | 59.0%[ | W&B 将其描述为内部评测,并列出 Opus 4.6 为 27.1%。[ |
| 网络安全 | Cybench | pass@1 = 1.00[ | Authmind 称 Cybench 是包含 40 道 CTF 挑战的公开基准,并列出 Opus 4.6 为 0.89。[ |
| 网络安全 | CyberGym | 0.83[ | Authmind 称 CyberGym 评估 AI Agent 在 1,507 个真实开源软件任务中的定向漏洞复现能力,并列出 Opus 4.6 为 0.67。[ |
| 推理 | GPQA Diamond | 94.6%[ | llm-stats 给出的 Opus 4.6 对照值为 91.3%。[ |
| 推理 | Humanity’s Last Exam,无工具 / 有工具 | 56.8% / 64.7%[ | llm-stats 给出的 Opus 4.6 对照值分别为 40.0% 和 53.1%。[ |
| 终端 Agent | Terminal-Bench 配置 | 92.1%[ | llm-stats 将该分数与 Terminus-2 Harness、最高档 adaptive thinking、每任务 100 万 Token 预算、4 小时超时和 Terminal-Bench 2.1 更新绑定在一起。[ |
| 多任务知识 | MMMLU | 92.7[ | R&D World 称 Gemini 3.1 Pro 的 92.6–93.6 区间与 Mythos 的 92.7 重叠,这是 18 项中所谓 17 项领先说法里的例外。[ |
官方资料真正确认了什么
最明确的官方信息,是 Claude Mythos Preview 的定位和访问方式:它是 Project Glasswing 的防御性网络安全研究预览模型,采用邀请制,没有 self-serve 自助注册。[13]
Anthropic 的 Project Glasswing 页面还把 Claude Mythos Preview 描述为通用前沿模型,并称它是 Anthropic 在编码和 Agent 类任务上能力最强的模型;该页面同时解释说,它在网络安全上的强项来自更广泛的软件理解与修改能力,因为能深入理解并修改复杂软件的模型,也更有能力发现和修复漏洞。[16]
系统卡资料则把 Claude Mythos Preview 描述为 Anthropic 的新大型语言模型和前沿 AI 模型,能力覆盖软件工程、推理、计算机使用、知识工作和研究辅助等方向。[18] 换句话说,官方资料支撑的是模型定位与能力范围;上表里的大量具体分数,在这组资料中主要是通过第三方汇总可见。[
6][
9][
25][
27]
为什么 93.9% 会成为头条分数
对软件团队来说,SWE-bench Verified 的 93.9% 自然最抢眼。W&B 不仅给出 Claude Mythos Preview 的这一成绩,也把 Claude Opus 4.6 的对照值列为 80.8%。[6] 在同一资料中,Mythos Preview 在 SWE-bench Multilingual 上达到 87.3%,高于 Opus 4.6 的 77.8%,说明被报道的优势并不只出现在单一英语编码设置中。[
6]
但这不等于模型在每个代码库、每套工具链、每种代码评审流程下都会表现相同。尤其是 Claude Mythos Preview 并非普通开发者可直接自助调用的模型;Anthropic 明确表示其访问需要邀请,没有自助注册。[13]
网络安全分数很强,但场景也很特殊
网络安全方向的成绩同样醒目。Authmind 报道称,Claude Mythos Preview 在 Cybench 上达到 pass@1 = 1.00;该来源把 Cybench 描述为一个由 40 道 CTF 挑战构成的公开基准。[27] 在 CyberGym 上,Authmind 给出的 Mythos Preview 成绩为 0.83,并称该评测覆盖 1,507 个真实开源软件任务中的定向漏洞复现。[
27]
这些结果与 Anthropic 的官方定位相吻合:Claude API 文档将 Mythos Preview 放在 Project Glasswing 的防御性网络安全工作流中。[13] Anthropic 的 Project Glasswing 页面也把它的网络安全能力与深入理解、修改复杂软件以及发现和修复漏洞的能力联系起来。[
16]
不过,CTF 挑战和漏洞复现任务毕竟是特定评测环境。它们是很有价值的安全能力信号,但不能替代企业或机构在自身安全规则、工具限制、审计流程和责任边界下进行评估。
推理、多模态与终端 Agent:配置细节很关键
在推理方向,llm-stats 报道 Claude Mythos Preview 在 GPQA Diamond 上达到 94.6%,在 Humanity’s Last Exam 上无工具为 56.8%、有工具为 64.7%。[25] HLE 分数被拆成无工具和有工具两种情况,这一点很重要:一旦允许模型调用工具,成绩就不再只是“模型本体能力”的简单比较。
Terminal-Bench 的 92.1% 更需要看配置。llm-stats 说明,这一结果与 Terminus-2 Harness、最高档 adaptive thinking、每任务 100 万 Token 预算、扩展到 4 小时的超时限制,以及 Terminal-Bench 2.1 更新有关。[25] 对 Agent 类评测来说,这些不是脚注,而是结果本身的一部分:时间、上下文、工具和预算都会显著影响模型表现。
多模态成绩也应谨慎解读。W&B 报道 Claude Mythos Preview 在内部多模态评测中为 59.0%,而 Opus 4.6 为 27.1%。[6] 另据 llm-stats,SWE-bench Multimodal 使用内部实现,其分数不能直接与公开排行榜结果比较。[
25]
为什么不能把这些分数当成普通公开榜单
主要限制有四点:
-
访问受限。 Anthropic 明确称 Claude Mythos Preview 是邀请制研究预览模型,没有自助注册入口。[
13] 这让普通开发团队难以独立复测。
-
来源结构混合。 官方资料主要确认模型状态、项目定位和能力范围。[
13][
16][
18] 许多具体分数在这组材料中主要通过第三方来源出现。[
6][
9][
25][
27]
-
部分评测为内部或特殊配置。 多模态成绩被 W&B 描述为内部评测。[
6] Terminal-Bench 分数则与特定 Harness、最高档 thinking、巨大 Token 预算和更长超时设置绑定。[
25]
-
任务类别边界清晰。 Cybench 被描述为 40 道 CTF 挑战,CyberGym 被描述为 1,507 个真实开源软件任务中的定向漏洞复现。[
27] 这些是重要评测,但不是所有软件开发或安全运营场景的完整代表。
结论
只看数字,Claude Mythos Preview 的报道成绩确实很强:SWE-bench Verified 93.9%、SWE-bench Multilingual 87.3%、内部多模态评测 59.0%、CyberGym 0.83、Cybench pass@1 = 1.00。[6][
27]
但真正需要记住的是它的身份:Anthropic 把 Claude Mythos Preview 定位为 Project Glasswing 下的邀请制研究预览模型,而不是普通公开可用的标准模型。[13] 因此,最稳妥的读法是:这些分数表明 Claude Mythos Preview 在编码、Agent 和防御性网络安全方向具备很强能力,但它们并不等同于一个完全公开、可复现、可横向比较的排行榜名次。




