把 GPT-5.5、Claude Opus 4.7、Kimi K2.6 和 DeepSeek V4-Pro 放进同一张表时,最容易产生误读的是:把来源不同、工具权限不同、推理强度(reasoning effort)不同的分数,当成一个绝对排行榜。现有资料更适合做任务导向选型:命令行/CLI 工作流优先看 GPT-5.5;SWE-Bench 与视觉、computer-use 任务优先看 Claude Opus 4.7;知识与数学、开放模型路线优先把 DeepSeek V4-Pro 放入短名单;Cloudflare Workers AI 上的多模态智能体工作流,则把 Kimi K2.6 放进候选池。[27][
4][
1][
5][
64][
36]
可引用基准快照:先看任务,不看总榜
下表只整理本次资料中可直接引用的数字。破折号表示没有同一栏位的可引用分数,不代表模型没有这项能力。更关键的是,这些结果并非全部来自同一个官方 harness,所以适合做第一轮筛选,不适合当作绝对 leaderboard。
| 测试或任务 | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4-Pro | 选型信号 |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% [ | 69.4% [ | 66.7 [ | 67.9 [ | 可引用资料中,GPT-5.5 对命令行工作流最突出。 |
| SWE-Bench Pro | 58.6% [ | 64.3% [ | 58.6 [ | 55.4 [ | Claude 暂居可引用分数第一,但该数值来自次级整理引用 AWS。 |
| SWE-Bench Verified / Resolved | — | 87.6% [ | 80.2 [ | 80.6 [ | Claude 最高;但缺少 GPT-5.5 同列可比数字,且来源命名不完全一致。 |
| Graphwalks 256k:BFS / parents | 73.7 / 90.1 [ | 76.9 / 93.6 [ | — | — | 在 OpenAI 长上下文表的 256k 两列中,Claude Opus 4.7 高于 GPT-5.5。 |
| Graphwalks 1M:BFS / parents | 45.4 / 58.5 [ | — | — | — | OpenAI 表可说明 GPT-5.5 的 1M 长上下文表现;同表 1M 对照栏位标为 Opus 4.6,不宜拿来判断 Opus 4.7。 |
| 知识与数学 | — | — | — | GPQA Diamond 90.1、GSM8K 92.6、MMLU-Pro 87.5、HLE 37.7 [ | DeepSeek V4-Pro 在本次资料中有最完整的公开模型卡数值。 |
| 视觉、截图、computer-use | — | vision-heavy workload gains;1:1 pixel coordinates;XBOW 视觉敏锐度 98.5% [ | Cloudflare 称其为原生多模态智能体模型,但没有同一视觉 benchmark 分数 [ | — | Claude Opus 4.7 的视觉与 UI 操作证据最直接。 |
为什么不能直接排总榜?
**第一,来源层级不一致。**GPT-5.5 的 Terminal-Bench 2.0 与 SWE-Bench Pro 数字来自媒体转述 OpenAI 提供的 benchmark 结果;Claude Opus 4.7 的 SWE-Bench Pro、SWE-Bench Verified 与 Terminal-Bench 2.0 数字来自次级整理引用 AWS;Kimi K2.6 与 DeepSeek V4-Pro 的部分分数则来自 Hugging Face 模型卡。[27][
4][
84][
64]
**第二,工具权限会改变相对结果。**Mashable 报道的 HLE 数字显示,不允许工具时 Claude Opus 4.7 为 46.9%,GPT-5.4 Pro 为 42.7%;允许工具时,GPT-5.4 Pro 为 58.7%,Claude Opus 4.7 为 54.7%。这不是 GPT-5.5 的分数,但足以说明 with tools 与 without tools 不能混在一张榜单里比较。[6]
**第三,版本和成本设置也会影响解读。**DeepSeek V4 分为 V4-Pro 与 V4-Flash,Yahoo Finance 报道称 V4-Flash 是更有效率、经济的版本;本文可引用的详细分数主要对应 DeepSeek-V4-Pro。[57][
64] Artificial Analysis 也把 GPT-5.5 拆成不同 effort variants,并称 GPT-5.5 xhigh 跑其 Index 的成本约比前代高 20%、比 Claude Opus 4.7 max 低 30%。[
24]
GPT-5.5:命令行工作流和长上下文是主要亮点
GPT-5.5 在这组资料中最清晰的强项是 Terminal-Bench 2.0。Yahoo Finance / Investing.com 报道称,OpenAI 提供的 benchmark 结果显示,GPT-5.5 在用于衡量 command-line workflows 的 Terminal-Bench 2.0 达到 82.7%;同文还列出 GPT-5.5 在评估 GitHub issue resolution 的 SWE-Bench Pro 上为 58.6%。[27]
长上下文方面,OpenAI 的表格显示,GPT-5.5 在 Graphwalks BFS 256k 与 1M 分别为 73.7 与 45.4,在 Graphwalks parents 256k 与 1M 分别为 90.1 与 58.5;同表中 GPT-5.4 在 Graphwalks BFS 1M 为 9.4,GPT-5.5 为 45.4。[21]
第三方评测机构 Artificial Analysis 称 GPT-5.5 是新的 leading AI model,并表示 OpenAI 在其五项 headline evaluations 领先、三项次于 Gemini 3.1 Pro Preview;同文还称 GPT-5.5 xhigh 跑其 Index 时使用的 output tokens 约比前代少 40%。[24]
**适合优先测试的场景:**CLI automation、terminal agents、长上下文检索,以及需要控制输出 token 成本的智能体式编程工作流。[27][
21][
24]
Claude Opus 4.7:代码修复分数强,视觉与 computer-use 证据更硬
Claude Opus 4.7 的官方资料最明确强调视觉和 UI 操作。Anthropic API 文档称,这项变更应能释放 vision-heavy workloads 的性能增益,尤其对 computer use、screenshot、artifact 与 document understanding workflows 重要;文档还说明,模型坐标可 1:1 对应实际像素,不再需要 scale-factor 计算。[1]
Anthropic 发布页引用 XBOW 的视觉敏锐度 benchmark,称 Claude Opus 4.7 为 98.5%,Opus 4.6 为 54.5%。[5] 因此,在截图理解、文档版面解析、桌面 UI 操作和 computer-use agent 这类任务上,Claude Opus 4.7 拥有比其他三款模型更直接的官方证据。[
1][
5]
在代码 benchmark 上,一篇整理称 AWS cites Claude Opus 4.7 在 SWE-Bench Pro 为 64.3%、SWE-Bench Verified 为 87.6%、Terminal-Bench 2.0 为 69.4%。[4] 这些数字让 Claude 在本文可引用的 SWE-Bench Pro 与 Verified/Resolved 对照中暂时领先,但来源层级低于直接官方 benchmark 表,正式采用前仍应在自家仓库复测。
还有一个生产环境提醒:Anthropic 文档指出,高分辨率图片会使用更多 tokens;如果不需要额外图像细节,应在传给 Claude 前先降采样,以避免 token usage 增加。[1]
**适合优先测试的场景:**GitHub issue repair、coding agent、截图/文档理解、computer-use agents,以及需要精确像素坐标的 UI 操作任务。[1][
4][
5]
Kimi K2.6:Workers AI 上的多模态智能体候选
Cloudflare changelog 显示,Moonshot AI Kimi K2.6 已于 2026年4月20日在 Workers AI 上可用,模型 ID 为 @cf/moonshotai/kimi-k2.6,Cloudflare 称这是与 Moonshot AI 合作的 Day 0 support。[36]
同一来源把 Kimi K2.6 描述为原生多模态智能体模型,能力重点包括 long-horizon coding、coding-driven design、proactive autonomous execution 与 swarm-based task orchestration;Cloudflare 还称其采用 Mixture-of-Experts 架构,总参数 1T、每 token active 参数 32B。[36]
公开分数方面,Kimi K2.6 的 Hugging Face 模型卡列出 Terminal-Bench 2.0 为 66.7、SWE-Bench Pro 为 58.6、SWE-Bench Multilingual 为 76.7。[84] MarkTechPost 另报道 Kimi K2.6 在 SWE-Bench Verified 为 80.2。[
45]
**适合优先测试的场景:**已经使用 Cloudflare Workers AI、需要 long-horizon coding、coding-driven design、多模态智能体工作流或多 agent orchestration 的团队。[36][
84]
DeepSeek V4-Pro:知识与数学分数最完整,开放模型路线清晰
DeepSeek V4 在资料中分为 V4-Pro 与 V4-Flash。Yahoo Finance 报道称,DeepSeek 表示 V4-Pro 在 world knowledge benchmarks 上明显领先其他 open-source models,且只略逊于顶级闭源模型 Gemini-Pro-3.1;同一报道还称 V4-Flash 是更有效率、经济的选择。[57]
DeepSeek-V4-Pro 的 Hugging Face 模型卡提供了本文最完整的一组知识、数学、代码与 terminal 评测数字:GPQA Diamond 90.1、GSM8K 92.6、HLE 37.7、MMLU-Pro 87.5、SWE-Bench Pro 55.4、SWE-Bench Verified/Resolved 80.6、TerminalBench 2.0 67.9。[64]
CNBC 报道称,DeepSeek 表示 V4 已针对 Claude Code 与 OpenClaw 等 agent tools 做优化;Counterpoint 首席 AI 分析师 Wei Sun 认为,V4 的 benchmark profile 显示它可能以显著更低成本提供出色 agent 能力。[58]
**适合优先测试的场景:**重视开放模型路线、知识与数学 benchmark、agent tooling 成本效益,或希望在本地/自管环境中评估可下载模型的团队。[58][
64]
按任务选模型:更实用的短名单
- **Terminal automation / command-line agents:先测 GPT-5.5。**可引用资料中,GPT-5.5 Terminal-Bench 2.0 为 82.7%,高于 Claude Opus 4.7 的 69.4%、DeepSeek V4-Pro 的 67.9 与 Kimi K2.6 的 66.7。[
27][
4][
64][
84]
- **Software engineering repair / SWE-Bench Pro 类任务:先测 Claude Opus 4.7,但一定要跑自家仓库。**可引用分数中,Claude Opus 4.7 为 64.3%,GPT-5.5 与 Kimi K2.6 同为 58.6,DeepSeek V4-Pro 为 55.4;但 Claude 数字来源层级较低。[
4][
27][
84][
64]
- **截图、文档理解、computer-use:Claude Opus 4.7 优先。**Anthropic 文档直接提到 vision-heavy workflows、computer use 与 1:1 pixel coordinates,发布页也引用 XBOW 98.5% 视觉敏锐度结果。[
1][
5]
- **知识/math 与开放模型路线:DeepSeek V4-Pro 优先纳入短名单。**它的 Hugging Face 模型卡同时列出 GPQA Diamond、GSM8K、HLE、MMLU-Pro、SWE-Bench 与 TerminalBench 2.0 等分数。[
64]
- **Workers AI 上的多模态智能体工作流:Kimi K2.6 值得测。**Cloudflare 已提供 Kimi K2.6 的 Workers AI Day 0 support,并将其定位为 long-horizon coding 与 swarm-based task orchestration 的原生多模态智能体模型。[
36]
上线前,请用同一套条件重跑
要得到能在团队内部站得住脚的结论,应使用同一模型版本或 API model ID、同一上下文长度、同一工具权限、同一 reasoning effort、同一 temperature、同一 token budget 与同一 scoring harness。工具权限尤其不能混用,因为 HLE 报道已经显示 with tools 与 without tools 会改变相对结果。[6]
成本也要和能力一起测。Artificial Analysis 报道称 GPT-5.5 xhigh 跑其 Index 的成本约比前代高 20%、比 Claude Opus 4.7 max 低 30%,且 output tokens 比前代少约 40%;Anthropic 文档则提醒,高分辨率图片会使用更多 tokens。[24][
1] 对 production agent 来说,速度、token 使用量、工具调用成功率和错误修复率,往往和单一 benchmark 分数一样重要。
底线
目前最可信的比较方式不是排一个总榜,而是按任务选短名单:Terminal-Bench 看 GPT-5.5,SWE-Bench 与视觉/computer-use 看 Claude Opus 4.7,知识与数学模型卡看 DeepSeek V4-Pro,Workers AI 上的多模态智能体编程则把 Kimi K2.6 放进候选清单。[27][
4][
1][
5][
64][
36] 等到四款模型在同一 harness、同一工具设置和同一版本条件下都有完整共同分数,再谈真正的总排名。




