如果只问“Claude Opus 4.7 的 benchmark 是多少”,最容易被转发的答案是:SWE-bench Verified 87.6%。但这个数字更像入口,而不是结论。
Anthropic 在模型文档中把 Claude Opus 4.7 定位为其正式可用模型里,最擅长复杂推理和智能体式编码的一款 [1]。AWS 则称,相比 Opus 4.6,它面向生产环境中的智能体编码、知识工作、视觉理解和长时任务有所改进 [
7]。
也就是说,Opus 4.7 不是一个适合被单个分数概括的模型。更合理的问题是:你要评估的是写代码、跑终端工具、金融分析,还是多步骤研究流程?
关键结果一览
| 场景 | Benchmark | 报告结果 | 更适合回答的问题 |
|---|---|---|---|
| 编码与软件任务 | SWE-bench Verified | 87.6% | 目前最受关注的标题数字,用于观察模型解决软件工程任务的能力 [ |
| 编码与更复杂软件任务 | SWE-bench Pro | 64.3% | 可与 Verified 搭配看,避免只用一个软件测试集下结论 [ |
| 终端与工具型 Agent | Terminal-Bench 2.0 | 69.4% | 适合关注模型在类似终端环境或工具链中完成任务的场景 [ |
| 金融 Agent | Finance Agent v1.1 | 64.4% | 更贴近金融分析或金融自动化流程 [ |
| 内部编码评测 | 93 项任务内部 benchmark | 相比 Opus 4.6,解决率 +13% | 这是特定内部评测的相对提升,不等于所有代码项目都会同步提升 [ |
| 内部 research-agent | 总分 | 0.715 | Anthropic 称其在内部多步骤研究智能体 benchmark 中表现强劲 [ |
| 内部 research-agent | General Finance | 0.813,Opus 4.6 为 0.767 | 显示其在 Anthropic 内部金融模块上较 Opus 4.6 有提升 [ |
87.6%到底说明什么
对正在比较 coding agent 的开发团队来说,**SWE-bench Verified 87.6%**是最清晰的主指标:AWS 报告 Claude Opus 4.7 在该 benchmark 上达到这一结果 [7]。这也和 Anthropic 对 Opus 4.7 的定位一致:它强调复杂推理和智能体式编码能力 [
1]。
但要注意,87.6%不是“这个模型做任何事都有 87.6%成功率”。SWE-bench Verified 评估的是特定类型的软件工程任务;它不能替代终端操作、金融分析、视觉理解、长时任务或研究型 Agent 的评测。
所以,若你的目标是代码修复、仓库任务自动化或软件工程 Agent,SWE-bench Verified 可以作为起点;但如果产品需要调用工具、处理金融材料或完成多步骤研究,就应同时看 SWE-bench Pro、Terminal-Bench 2.0、Finance Agent v1.1 以及 Anthropic 的内部 research-agent 数据 [6][
7][
8]。
为什么同一个模型会出现不同数字
不同来源并不总是给出同一个分数。一个二级来源称 Claude Opus 4.7 在 SWE-bench Verified 上为 82.4%,而 AWS 报告的数字是 87.6% [2][
7]。这类差异值得认真对待:只复制一个百分比,却不说明来源和评测条件,很容易误导读者。
更稳妥的写法是同时注明三件事:benchmark 名称、具体分数、来源。如果是内部复测,还应记录提示词、工具、评测脚本和 harness 设置。AWS 也提醒,Opus 4.7 可能需要调整 prompting 和 harness,才能更好发挥模型能力 [7]。
按使用场景选择指标
如果主要场景是编程,先看 SWE-bench Verified 没问题,但不要止步于此。SWE-bench Pro 可以补充观察更复杂或不同类型的软件任务;Terminal-Bench 2.0 则更适合评估模型在终端、命令行或工具链环境中的表现 [6][
7]。
如果目标是金融或研究型工作流,Anthropic 的内部 research-agent 数据更贴近这类流程:Opus 4.7 的总分为 0.715,在 General Finance 模块为 0.813,而 Opus 4.6 在该模块为 0.767 [8]。不过,这些仍然是内部评测,应视为参考,而不是独立第三方验证。
如果关注的是企业长流程,公开信息强调的是长时任务、知识工作、视觉理解、模糊任务处理、更细致的问题求解和更准确的指令遵循 [7]。在这种场景下,benchmark 只能帮你缩小候选范围;真正的判断仍应来自你自己的任务、工具、提示词和评测框架。
结论
Claude Opus 4.7 最好引用、也最容易被记住的数字,是 SWE-bench Verified 87.6%,尤其适合讨论智能体式编码能力 [7]。但完整图景还包括 SWE-bench Pro 64.3%、Terminal-Bench 2.0 69.4%、Finance Agent v1.1 64.4%,以及 Anthropic 在内部多步骤研究和金融模块中的结果 [
7][
8]。
负责任的比较方式,不是问“哪个 benchmark 最高”,而是先判断哪个 benchmark 最像你的真实工作流。对软件开发来说,SWE-bench Verified 是起点;对终端 Agent、金融分析或 research-agent 来说,补充指标往往同样关键。




