Claude Opus 4.7 更有说服力的场景,是“读懂已有项目,然后做出能通过测试的修改”。这类任务通常不是从零生成一个函数,而是要理解目录结构、失败测试、上下游调用关系,再用尽量小的 diff 修掉问题。
公开信号也支持这个判断。Anthropic 称 Claude Opus 4.7 在 SWE-bench Pro 上达到 64.3%;对比报道则把同一指标整理为 GPT-5.5 58.6%、Claude Opus 4.7 64.3%。
Anthropic 自己的定位也很明确。其 Claude API 发布说明写道,2026 年 4 月 16 日推出的 Claude Opus 4.7,是其用于复杂推理和代理式编码的最强 generally available 模型。
功能上,Opus 4.7 也加入了面向长任务的设计。例如 beta 功能 task budgets Anthropic 还表示,Opus 4.7 用户默认使用
xhigh effort。
因此,如果你的工作流包括下面这些,Claude Opus 4.7 值得先测:
不过,这不等于“所有写代码场景 Claude 都赢”。SWE-bench 系列本身有不同变体,厂商也可能突出对自己更有利的榜单;因此,公开分数更适合作为筛选候选模型的入口,而不是替代你自己的仓库测试。
GPT-5.5 的优势,在“把终端当工作台”的开发代理场景里更明显。VentureBeat 汇总的 Terminal-Bench 2.0 表中,GPT-5.5 得分 82.7,Claude Opus 4.7 为 69.4。
这项差异有意义,是因为 Terminal-Bench 2.0 并不是简单考“能不能写出一段代码”。它被描述为模拟复杂命令行工作流,需要计划、迭代和工具协调。 这更接近真实开发代理的日常:先跑命令,看报错,缩小范围,修改,再测试。
如果你的目标是下面这些,GPT-5.5 应该放在优先比较位置:
如果把范围放宽到“会不会用工具”,结论会变得更混合。OpenAI 的 GPT-5.5 介绍资料显示,BrowseComp 上 GPT-5.5 为 84.4%,Claude Opus 4.7 为 79.3%;但在 MCP Atlas 上,GPT-5.5 为 75.3%,Claude Opus 4.7 为 79.1%。
这说明,“模型会调用工具”还不够具体。你需要区分:
不同任务需要的能力不同,单看一个“工具使用”总称,很难得出可靠选择。
第一,不要把 overall ranking 当成编程排名。比如 BenchLM 的 overall ranking 中出现 GPT-5.4 为 88 分、Claude Opus 4.7 为 86 分,但这不是 GPT-5.5,也不是编程专项评测。
如果你要在实际研发流程里选模型,建议别只看公开榜单,而是在自己的仓库里做小规模 A/B。关键是把条件尽量拉平:
评估指标也不要只看“有没有答案”,更要看工程可用性:
如果你的核心目标是让代理执行终端命令、分析日志、反复构建和测试、协调多个 CLI 工具,先测 GPT-5.5。Terminal-Bench 2.0 的公开报道显示 GPT-5.5 明显高于 Claude Opus 4.7。
一句话:改现有代码、追求可合并补丁,先看 Claude Opus 4.7;跑终端、做自动化开发代理,先看 GPT-5.5。最后真正拍板时,还是让两个模型在同一个仓库里交卷,看谁更稳定地通过测试、少添麻烦,并产出人类评审者愿意合并的代码。
Comments
0 comments