Claude Opus 4.6 最强的论据来自 SWE-Bench Verified。引用报告中,它的 Verified 分数大致集中在 79% 到 81%:GPT-5.4 分析给出 79.2%,Opus-vs-Codex 对比给出 79.4%,另一些基准汇总给出 80.8% 。
GPT-5.3-Codex 的 SWE-Bench 读法更麻烦,因为不同报告用了不同变体。有的报告把 GPT-5.3-Codex 的 SWE-Bench Pro Public 列为 78.2%,而 GPT-5.4 分析把它的 SWE-Bench Pro 列为 56.8% 。这不是取平均值的理由,反而是在提醒读者:SWE-Bench Verified、SWE-Bench Pro 和 SWE-Bench Pro Public 不能随手互换
。
在同一份 GPT-5.4 分析里,GPT-5.4 对 GPT-5.3-Codex 的最清晰优势其实很窄:SWE-Bench Pro 为 57.7% 对 56.8% 。另有总结也提到 GPT-5.4 的 57.7% SWE-Bench Pro Public 数字,同时提醒 Claude 与 GPT 的更大范围对比并不是苹果对苹果
。
Terminal-Bench 2.0 更容易被误读。它的公开榜单列的是 agent/model 组合,而不是把基础模型单独拿出来测 。在该榜单中,GPT-5.3-Codex 搭配 SageAgent 为 78.4%,搭配 Droid 为 77.3%,搭配 Simple Codex 为 75.1%
。Claude Opus 4.6 搭配 ForgeCode 为 79.8%,搭配 Capy 为 75.3%,搭配 Terminus 2 为 62.9%
。
这个差距已经足以改变“赢家”。GPT-5.4 分析中,GPT-5.3-Codex 在 Terminal-Bench 2.0 上以 77.3% 领先 Claude Opus 4.6 的 65.4% ;但公开榜单里,ForgeCode/Claude Opus 4.6 的 79.8% 又高于 SageAgent/GPT-5.3-Codex 的 78.4%
。所以,评估终端智能体时,必须先固定 harness,再谈模型优劣。
如果你的代理指标是 SWE-Bench Verified,Claude Opus 4.6 是这些来源里最有支撑的起点。它在 Verified 变体上的公开分数集中在 79.2%、79.4% 和 80.8% 附近 。
但这不等于它在所有编程任务上通吃。它的 Terminal-Bench 2.0 表现取决于搭配:对比报告中有 65.4% 的数字,公开榜单中则有 ForgeCode 搭配下的 79.8%,以及 Terminus 2 搭配下的 62.9% 。结论是:做 Verified 风格的真实仓库修复,优先试 Opus 4.6;做终端智能体,不要只看模型名。
GPT-5.3-Codex 最强的 OpenAI 论据来自 Terminal-Bench 风格的终端任务。对比报告列出它在 Terminal-Bench 2.0 上为 77.3%,公开榜单也给出 SageAgent 78.4%、Droid 77.3%、Simple Codex 75.1% 等组合结果 。
它的 SWE-Bench 分数则必须看清版本。有的报告列出 GPT-5.3-Codex 在 SWE-Bench Pro Public 为 78.2%,另一些则列出 SWE-Bench Pro 为 56.8% 。既然来源本身已经提醒这些变体不能直接互换,就应当在你实际要采用的同一评测版本和同一设置下判断它
。
从这组资料看,GPT-5.4 不像是一次“编码能力大爆发”。同一份分析里,它在 SWE-Bench Pro 上只比 GPT-5.3-Codex 高 0.9 个百分点,57.7% 对 56.8%;但在 Terminal-Bench 2.0 上反而低一些,75.1% 对 77.3% 。
GPT-5.4 更有辨识度的点是工具使用。该分析称,工具搜索通过按需加载工具定义,而不是把所有定义都塞进上下文,让 MCP token 用量减少 47% 。如果你在做多工具、长上下文、自动化编码代理,这可能是很实际的系统优势;但它应与修 bug 准确率分开评估。
Comments
0 comments