Claude Mythos Preview 最常和一个醒目的数字放在一起:SWE-bench 93.9%。如果只问“它的 benchmark 是多少”,这通常就是最短答案。但更准确的读法是:SWE-bench 主要评估软件工程和代码任务,不是对一个 AI 模型所有能力的总评分 [1][
2]。
先看关键数字:SWE-bench 93.9%
目前围绕 Claude Mythos Preview 最常被引用的成绩,是其在 SWE-bench 上达到 93.9% [1][
2]。SWE-bench 更接近真实代码库中的修复、修改和工程任务,因此这个数字对比较编程能力、代码修复能力,以及“编程代理”类工作流尤其有参考价值 [
1]。
但这里有一个关键前提:高 SWE-bench 分数通常不是模型“裸聊”得来的,而是在代理式环境中完成的。也就是说,模型可能可以读取项目文件、运行代码、检查测试结果,并根据反馈多轮迭代 [1]。这并不削弱 93.9% 的意义,只是提醒我们:它反映的是“模型能力 + 工具环境 + 评测流程”的综合结果。
它不等于“这就是最强通用 AI”
93.9% 不应被理解为 Claude Mythos Preview 的综合成绩。一个软件基准本身并不能完整衡量通用推理、安全性、可用性、运行成本,也不能代表模型在写作、搜索、图像、多模态或其他非代码任务上的表现 [1]。
做严肃比较时,最重要的原则是“同台竞技”:同一个 benchmark、相近的工具权限、相近的迭代次数和评测设置。一个模型如果能访问文件、执行代码、反复跑测试,而另一个模型没有这些条件,直接比较分数就容易得出误导性结论 [1]。
已报道的 Claude Mythos Preview 指标怎么分层看
| 领域 | 已报道结果 | 更稳妥的读法 |
|---|---|---|
| 软件 / SWE-bench | 93.9% | 最适合用来观察代码任务、代码修复和编程代理表现 [ |
| 网络安全能力 | 83.1%,对比 Claude Opus 4.6 的 66.6% | 属于网络安全能力基准,不应和 SWE-bench 混为一谈 [ |
| Cybench | 100% | 二手来源称这是网络安全挑战类 benchmark,并非通用模型总评 [ |
| 更广泛 benchmark 组合 | 在 18 个 Anthropic 测量的 benchmark 中领先 17 个 | 属于聚合说法,适合进一步查看拆分项,而不是直接当作全能排名 [ |
软件分数和网络安全分数要分开读
Claude Mythos Preview 的网络安全相关指标属于另一条线索。一项报道给出的数字是:Mythos Preview 在网络安全能力 benchmark 中为 83.1%,Claude Opus 4.6 为 66.6% [3]。另有二手来源称 Mythos 在 Cybench 达到 100%,并将其描述为网络安全挑战类评测 [
5]。
从 Anthropic 相关资料看,这一方向也确实是重点:Anthropic Red Team 发布了对 Claude Mythos Preview 网络安全能力的评估,Project Glasswing 也包含使用该模型识别漏洞和 exploit 的工作 [13][
24]。这些内容对安全团队可能很重要,但不能和 SWE-bench 合并成一个“总分”。
实际评估时该怎么用这个数字
如果你的场景是让 AI 代理处理代码仓库、修改代码、运行测试并不断迭代,那么 93.9% SWE-bench 是最值得先看的指标 [1][
2]。如果你的场景是漏洞分析、安全审查或 exploit 研究,那么网络安全相关指标和 Anthropic 的安全评估材料才是更贴近需求的上下文 [
3][
5][
13][
24]。
简而言之:Claude Mythos Preview 被报道在 SWE-bench 上取得 93.9%,这是回答其最常见 benchmark 时的核心数字 [1][
2]。但更严谨的结论应当窄一些:它是软件工程任务、尤其是代理式代码工作流中的强信号,而不是模型在所有领域都占优的自动证明。




