截至 2026 年 4 月的公开资料,GPT‑5.5、Claude Opus 4.7、Kimi K2.6 和 DeepSeek V4 不适合被简单排成一张总榜。更实用的看法是:先问任务是什么,再看模型。你要的是能操作终端和浏览器的智能体,还是能修真实仓库 bug 的编码助手?你是否必须自托管、需要开放权重?长上下文只是窗口大,还是要真的能在超长材料里稳定找回信息?
最大的前提也要先说清:这些 benchmark 不是同一把尺子量出来的。不同实验室、工具权限、推理强度、评测框架和复现方式都会影响分数;LM Council 也提醒,独立运行的 benchmark 可能与 AI 机构自报分数不一致。[12]
先给结论
- 代理式电脑操作、浏览器流程、终端密集型智能体:优先看 GPT‑5.5。 OpenAI 发布资料给出的信号很强:Terminal‑Bench 2.0 为 82.7%,OSWorld‑Verified 为 78.7%,BrowseComp 为 84.4%,Toolathlon 为 55.6%。[
5]
- 真实代码库修复、SWE‑Bench 风格编码:Claude Opus 4.7 是最强候选之一。 公开报告中,Claude Opus 4.7 的 SWE‑Bench Verified 为 87.6%,SWE‑Bench Pro 为 64.3%。[
17]
- 开放权重编码栈:Kimi K2.6 很有竞争力。 Kimi 官方资料列出 Terminal‑Bench 2.0 为 66.7%,SWE‑Bench Pro 为 58.6%,SWE‑Bench Verified 为 80.2%,LiveCodeBench v6 为 89.6。[
29]
- 长上下文、开放源码/开放权重实验:DeepSeek V4 值得纳入评测,但一定要看具体变体。 DeepSeek 称 V4 Preview 已于 2026 年 4 月 24 日上线并开源;DeepSeek-V4-Pro 的 Hugging Face 卡片将 V4 系列呈现为 MoE 语言模型。[
42][
37]
- 科学推理:Claude 在 GPQA Diamond 上的公开分数最高,但不要只凭一个榜单定生死。 Claude Opus 4.7 的 GPQA Diamond 为 94.2%;Kimi K2.6 的 GPQA-Diamond 为 90.5%,AIME 2026 为 96.4%;DeepSeek V4-Pro/Pro-Max 表中 GPQA Diamond 为 90.1。[
19][
27][
29][
37]
读 benchmark 前,先分清三件事
- benchmark 测的不是同一种能力。 Terminal‑Bench 更偏命令行和终端任务;SWE‑Bench 更像真实仓库 issue 修复;OSWorld 关注电脑/操作系统使用;BrowseComp 偏浏览器检索;GPQA Diamond 是研究生级科学问答;HLE 则是高难综合推理。[
5][
17][
29]
- 工具权限和推理预算会改写结果。 OpenAI system card 说明,GPT‑5.5 Pro 是同一底层模型在使用并行 test-time compute 的设置下运行,因此不能把 GPT‑5.5 与 GPT‑5.5 Pro 当成同一推理预算下的结果来硬比。[
3]
- 公开榜单适合做候选清单,不适合直接做采购结论。 LM Council 明确提示,独立 benchmark 与模型厂商自报分数可能不一致;上线前仍应跑自己的内部评测。[
12]
四个模型速览
| 模型 | 公开定位 | 最强信号 | 主要注意点 |
|---|---|---|---|
| GPT‑5.5 | OpenAI 发布资料强调 computer use、tool use 和 agentic workflows。[ | Terminal‑Bench 2.0 82.7%,OSWorld‑Verified 78.7%,BrowseComp 84.4%;GPT‑5.5 Pro 的 BrowseComp 为 90.1%。[ | Pro 不是普通 GPT‑5.5 的同预算版本;OpenAI system card 称 Pro 使用并行 test-time compute 设置。[ |
| Claude Opus 4.7 | Anthropic 将其描述为面向 coding 和 AI agents 的 hybrid reasoning model,并提供 1M context window。[ | SWE‑Bench Verified 87.6%,SWE‑Bench Pro 64.3%。[ | 1M 窗口有价值,但窗口大小不等于超长上下文末端召回一定强;StationX 摘要中提到极端 1M-token recall 的 caveat。[ |
| Kimi K2.6 | Moonshot/Kimi 的开放源码/开放权重、偏编码的模型。[ | Terminal‑Bench 2.0 66.7%,SWE‑Bench Pro 58.6%,SWE‑Bench Verified 80.2%,LiveCodeBench v6 89.6。[ | Artificial Analysis 称 Kimi K2.6 原生支持图片/视频输入,最大上下文长度为 256k;实际部署效果仍应在自己的服务环境中验证。[ |
| DeepSeek V4-Pro / Pro-Max | DeepSeek 称 V4 Preview 已上线并开源;Hugging Face 卡片将 V4 系列呈现为 MoE 语言模型。[ | 公开表中包含 Terminal Bench 2.0 67.9、SWE Verified 80.6、SWE Pro 55.4、GPQA Diamond 90.1。[ | DeepSeek V4 命名下有不同变体,Flash、Pro、Pro-Max 风格结果不能混成一个 DeepSeek V4 分数。[ |
关键 benchmark 横向表
| Benchmark | GPT‑5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4-Pro / Pro-Max | 怎么读 |
|---|---|---|---|---|---|
| Terminal‑Bench 2.0 | 82.7% [ | 69.4% reported [ | 66.7% [ | 67.9 [ | 命令行和自主编码类任务中,GPT‑5.5 的领先最清楚。 |
| SWE‑Bench Pro | 58.6% [ | 64.3% [ | 58.6% [ | 55.4 [ | 更难的软件工程 benchmark 上,Claude Opus 4.7 更靠前。 |
| SWE‑Bench Verified | 本组来源未见清晰可比值 | 87.6% [ | 80.2% [ | 80.6 [ | 真实仓库 issue 修复风格任务中,Claude 的公开信号最强。 |
| OSWorld‑Verified | 78.7% [ | 78.0% [ | 73.1% [ | 未见可比值 | 电脑使用任务上,GPT‑5.5 与 Claude Opus 4.7 非常接近。 |
| BrowseComp | 84.4%;GPT‑5.5 Pro 90.1% [ | 79.3% [ | 83.2%;Agent Swarm 86.3% [ | 未见可比值 | 浏览器智能体和网络检索任务中,GPT‑5.5 Pro 与 Kimi Agent Swarm 都给出强信号。 |
| GPQA Diamond | 本组来源未见清晰官方可比值 | 94.2% [ | 90.5% [ | 90.1 [ | 研究生级科学推理中,Claude 的公开分数最高。 |
| HLE / 高难推理 | 未见直接可比值 | no-tools 46.9%,with-tools 54.7% [ | HLE-Full 34.7%;with-tools 54.0% [ | HLE 37.7 [ | 工具增强的 HLE 上,Claude 与 Kimi 接近;DeepSeek 表中 HLE 更低。 |
| 长上下文 | 提供的发布摘录中未见清晰公开规格 | 1M context window [ | 256k max context length [ | V4 材料给出长上下文定位 [ | 长上下文选型不能只看窗口大小,还要单测召回、遵循指令和成本。 |
按场景怎么选?
1. 终端密集型自主编码智能体:GPT‑5.5
如果你的产品要让模型反复操作终端、调用工具、浏览网页、处理多步任务循环,GPT‑5.5 在这组公开资料里最亮眼。OpenAI 报告的数值包括 Terminal‑Bench 2.0 82.7%、OSWorld‑Verified 78.7%、BrowseComp 84.4% 和 Toolathlon 55.6%。[5]
GPT‑5.5 Pro 的 BrowseComp 为 90.1%,但它不应被当作普通 GPT‑5.5 的同预算成绩。OpenAI system card 说明,Pro 是同一底层模型在并行 test-time compute 设置下运行,这会影响某些评测和风险判断。[3][
5]
更适合: 编码智能体、浏览器研究智能体、电脑操作自动化、工具调用密集的企业助手。
2. 真实代码库修复:Claude Opus 4.7
如果核心 KPI 是修复真实仓库中的 bug、生成 pull request、让测试通过、理解大型代码库,Claude Opus 4.7 是最值得优先测试的候选。公开报告中,SWE‑Bench Verified 87.6% 和 SWE‑Bench Pro 64.3% 让它在软件工程 benchmark 上占优。[17]
Anthropic 将 Claude Opus 4.7 描述为面向 coding 和 AI agents 的 hybrid reasoning model,并提供 1M context window,因此它自然适合进入大型代码库工作流的评测池。[14]
更适合: 仓库维护、代码审查、复杂重构、开发者 copilot、工程智能体。
3. 开放权重编码栈:Kimi K2.6
如果你有自托管、开放权重或更强部署控制的要求,Kimi K2.6 是这组模型里最值得重点看的选择之一。Kimi 官方表中列出 Terminal‑Bench 2.0 66.7%、SWE‑Bench Pro 58.6%、SWE‑Bench Verified 80.2%、SciCode 52.2% 和 LiveCodeBench v6 89.6。[29]
Kimi K2.6 在代理式搜索/研究任务上也有不错信号,包括 BrowseComp 83.2% 和 Agent Swarm BrowseComp 86.3%。[34] Artificial Analysis 还称其原生支持图片和视频输入,最大上下文长度为 256k。[
32]
更适合: 开放模型部署、编码智能体、研究智能体、需要更多托管控制权的团队。
4. 长上下文开放实验:DeepSeek V4
DeepSeek 称 V4 Preview 已于 2026 年 4 月 24 日正式上线并开源。[42] DeepSeek-V4-Pro 的 Hugging Face 卡片将 V4 系列呈现为 MoE 语言模型。[
37]
DeepSeek V4-Pro/Pro-Max 的公开 benchmark 集合中包括 Terminal Bench 2.0 67.9、SWE Verified 80.6、SWE Pro 55.4 和 GPQA Diamond 90.1。[37] 这让它适合进入开放源码/开放权重实验和长上下文工作负载的候选清单,但分数必须和具体变体一起阅读。[
37][
42]
更适合: 长上下文应用、开放源码/开放权重实验、希望把托管前沿模型与可部署替代方案做对照的团队。
5. 科学与数学推理:Claude 领先 GPQA,但不是一锤定音
公开数值中,Claude Opus 4.7 的 GPQA Diamond 达到 94.2%。[19] Kimi K2.6 的 GPQA-Diamond 为 90.5%,AIME 2026 为 96.4%。[
27][
29] DeepSeek V4-Pro/Pro-Max 的 GPQA Diamond 为 90.1。[
37]
这说明 Claude 是科学推理场景的强候选,但数学/科学任务不应只看一个 benchmark。工具权限、推理强度和评测设置差异都可能改变结果。[12]
实操评测清单
- 不要用一个公开分数做最终决策。 用同一批 prompts、同一套工具权限、同一 timeout、同一评分规则,在你的真实任务上复测;公开和自报分数可能与独立运行结果不同。[
12]
- 把 GPT‑5.5 和 GPT‑5.5 Pro 分开记录。 Pro 使用并行 test-time compute 设置,因此不能把两者当成同等推理预算下的结果。[
3]
- 先定义开放权重是不是硬要求。 如果数据控制、自托管或模型定制是必需项,Kimi K2.6 与 DeepSeek V4 应放在单独的评测通道里比较。[
29][
34][
37][
42]
- 长上下文不要只看窗口大小。 Claude Opus 4.7 的 1M context window 很明确,Kimi K2.6 的最大上下文为 256k,DeepSeek V4 材料也有长上下文定位;但真正要测的是你的文档里能否稳定召回、能否遵循复杂指令,以及成本是否可接受。[
14][
17][
32][
37][
42]
- 编码智能体必须跑内部仓库。 SWE‑Bench 类分数是有用信号,但生产仓库里的依赖安装、flaky tests、代码风格和 review 约束会让结果不同。[
17][
12]
主要限制
- 这组资料中没有看到一个由同一独立实验室、同一 harness、同一工具权限和同一 effort setting 对四个模型完整评测的公开对比;LM Council 也提醒,独立 benchmark 可能与自报分数不一致。[
12]
- GPT‑5.5 Pro 与 GPT‑5.5 不能混为一谈,因为 OpenAI system card 将 Pro 描述为同一底层模型在并行 test-time compute 设置下运行。[
3]
- DeepSeek V4 的分数具有变体属性。V4 Preview、V4-Pro、Pro-Max 风格命名不能合并成一个单一的 DeepSeek V4 分数。[
37][
42]
- 对 Kimi K2.6 和 DeepSeek V4 这类开放权重/开放源码候选,公开 benchmark 只能说明潜力;最终还要看你的部署方式、上下文设置和内部评测结果。[
12][
29][
34][
37]
Bottom line
如果你要做电脑操作、浏览器研究、工具编排和终端密集型编码智能体,先测 GPT‑5.5。[5]
如果产品核心是 repo 级 bug 修复、代码库维护和 SWE‑Bench 风格软件工程,优先测 Claude Opus 4.7。[14][
17]
如果必须使用开放权重编码模型,并且还需要较强的 SWE‑Bench、Terminal‑Bench 和代理式搜索信号,Kimi K2.6 应进入候选清单。[29][
34]
如果重点是长上下文开放实验、可部署性和与托管前沿模型做对照,DeepSeek V4-Pro/Pro-Max 值得评测,但务必确认具体变体和评测设置。[37][
42]
最稳妥的选型路径是:先用公开 benchmark 做 shortlist,再用自己的真实任务、延迟、成本、隐私约束和失败模式测试来决定最终模型。[12]




