先说结论:这四个模型不能只看一张排行榜。更稳妥的做法,是先区分官方数据和第三方整理。GPT-5.5 有 OpenAI 官方给出的 Terminal-Bench 2.0 与 SWE-Bench Pro 成绩;DeepSeek V4 的官方资料主要确认 V4-Pro 与 V4-Flash 已接入 API [24][
25]。至于 Claude Opus 4.7 和 Kimi K2.6,本文引用的直接对比数字主要来自第三方分析,因此要当作参考,而不是最终裁判 [
4][
6]。
一句话选型:先看你要解决什么问题
- **代码修复、真实 GitHub issue、编码代理:**现有 SWE-Bench、SWE-Bench Verified 和 CursorBench 数据更偏向 Claude Opus 4.7 [
4]。
- **终端代理、Shell 工作流、工具调用编排:**GPT-5.5 的公开证据最完整,OpenAI 官方称其在 Terminal-Bench 2.0 上达到 82.7% [
24]。
- **预算敏感的大量代码代理任务:**Kimi K2.6 值得测试。CodeRouter 称其为成本/质量优胜候选,价格为每百万 token 输入 0.60 美元、输出 4.00 美元 [
6]。
- **DeepSeek V4:**DeepSeek 官方确认 V4-Pro 与 V4-Flash 可通过 API 使用,但在本文所用资料中,还没有一张官方的四方基准对照表能证明它相对 Kimi K2.6、Claude Opus 4.7 和 GPT-5.5 的具体胜负 [
25]。
这些数据到底说明了什么
OpenAI 将 Terminal-Bench 2.0 描述为测试复杂命令行工作流的基准,重点包括规划、迭代和工具协调;GPT-5.5 在该基准上达到 82.7% [24]。在 SWE-Bench Pro 上,OpenAI 称 GPT-5.5 达到 58.6%;该基准关注真实 GitHub issue 的解决能力 [
24]。
DeepSeek 的官方变更日志则说明,V4-Pro 和 V4-Flash 已可通过 OpenAI ChatCompletions 接口与 Anthropic 接口使用;模型参数分别是 deepseek-v4-pro 和 deepseek-v4-flash [25]。这证明了可用性,但不等于证明它在某个基准上领先。
Claude Opus 4.7 与 Kimi K2.6 的直接对比要更谨慎:LushBinary 给出了 Claude 与 GPT-5.5 的多项对照数值,CodeRouter 则给出了 Kimi K2.6、DeepSeek V4 的价格与定位信息 [4][
6]。
可比数据表:哪些有数字,哪些还没有
下表中的“暂无可比数据”表示:在本文使用的资料中,没有找到足够可靠、可直接横向比较的该模型成绩。
| 基准 / 指标 | DeepSeek V4 | Kimi K2.6 | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|---|
| SWE-Bench Pro | 暂无可比数据 | CodeRouter 称与 GPT-5.5 同级 [ | 64.3% [ | 58.6% [ |
| SWE-Bench Verified | 暂无可比数据 | 暂无可比数据 | 87.6% [ | 约 85% [ |
| Terminal-Bench 2.0 | 暂无可比数据 | 暂无可比数据 | 约 72% [ | 82.7% [ |
| GDPval / 知识工作 | 暂无可比数据 | 暂无可比数据 | 约 78% [ | 84.9% [ |
| OSWorld-Verified / 计算机使用 | 暂无可比数据 | 暂无可比数据 | 约 65% [ | 78.7% [ |
| GPQA Diamond | 暂无可比数据 | 暂无可比数据 | 94.2% [ | 约 93% [ |
| CursorBench | 暂无可比数据 | 暂无可比数据 | 70% [ | 约 65% [ |
| Tau2-bench Telecom | 暂无可比数据 | 暂无可比数据 | 约 90% [ | 98.0% [ |
| Vision & Document Arena | 暂无可比数据 | 暂无可比数据 | Arena 报告称排名第 1 [ | 暂无可比数据 |
| 价格 / 上下文提示 | V4 Flash:每百万 token 输入 0.14 美元、输出 0.28 美元,1M 上下文 [ | 每百万 token 输入 0.60 美元、输出 4.00 美元 [ | 暂无可比数据 | 暂无可比数据 |
编码能力:Claude Opus 4.7 更像当前强项,Kimi K2.6 是性价比变量
如果你的核心任务是改代码、修 bug、处理真实仓库里的 issue,现有引用数据最支持 Claude Opus 4.7。LushBinary 给出的 SWE-Bench Pro 数据中,Claude Opus 4.7 为 64.3%,高于 GPT-5.5 的 58.6%;其中 GPT-5.5 的 58.6% 也由 OpenAI 官方发布确认 [4][
24]。在 SWE-Bench Verified 和 CursorBench 上,LushBinary 同样把 Claude Opus 4.7 列在 GPT-5.5 前面 [
4]。
Kimi K2.6 的吸引力不完全来自“绝对第一”,而是来自成本结构。CodeRouter 称 Kimi K2.6 在 SWE-Bench Pro 上达到 GPT-5.5 水平,同时 token 价格更低 [6]。这对需要大量 agent run、反复生成草稿、频繁重试的团队很关键:单位任务的成功率固然重要,但“每个可接受结果的总成本”也同样重要。
至于 DeepSeek V4,本文所用的官方 DeepSeek 资料只能确认 V4-Pro 与 V4-Flash 已可通过 API 使用,不能据此推出它在编码基准上的具体成绩 [25]。
终端代理与 computer-use:GPT-5.5 的公开证据最硬
如果你的任务不是单次问答,而是让模型在终端里规划步骤、执行命令、读取结果、再继续调整,GPT-5.5 是目前证据最清楚的起点。OpenAI 称 GPT-5.5 在 Terminal-Bench 2.0 上达到 82.7%,并说明该基准考察复杂命令行工作流中的规划、迭代和工具协调 [24]。作为对照,LushBinary 将 Claude Opus 4.7 在同一基准上的成绩列为约 72% [
4]。
同一第三方资料还显示,在知识工作和计算机使用相关指标上,GPT-5.5 也更靠前:GDPval 为 84.9%,Claude Opus 4.7 约 78%;OSWorld-Verified 为 78.7%,Claude Opus 4.7 约 65% [4]。因此,涉及 Shell 命令、工具链编排、接近 GUI 操作的任务时,GPT-5.5 更适合作为第一轮评测对象。
视觉与文档:Claude Opus 4.7 有最明确的正面信号
视觉和文档处理方面,本文所用资料没有完整的四方对照表。最明确的信号来自 Claude Opus 4.7:Latent Space/AINews 引用的 Arena 报告称,Claude Opus 4.7 在 Vision & Document Arena 中排名第 1 [1]。
LLM Stats 还报道称,Claude Opus 4.7 可处理长边最高 2,576 像素、约 3.75 百万像素的图像;同一来源称 GPT-5.5 支持图像输入,并给出 MMMU-Pro 无工具 81.2%、使用工具 83.2% 的数据 [5]。这些信息有助于判断 Claude 与 GPT-5.5 的视觉能力差异,但仍不能替代 Kimi K2.6、DeepSeek V4 一起参与的同条件四方评测。
价格与吞吐:Kimi K2.6、DeepSeek V4 Flash 都值得纳入自测
价格层面,Kimi K2.6 的公开叙事最清晰。CodeRouter 将它描述为成本/质量优胜候选,并列出每百万 token 输入 0.60 美元、输出 4.00 美元的价格 [6]。
DeepSeek V4 Flash 则被同一来源列为更低价的 workhorse 选项:每百万 token 输入 0.14 美元、输出 0.28 美元,并支持 1M 上下文 [6]。DeepSeek 官方文档也确认,V4-Pro 和 V4-Flash 已可通过当前 API 接口使用 [
25]。
但要注意,便宜不等于基准领先。便宜模型适合扩大尝试次数、承担低风险任务、做批量草稿;真正上线时,还要看它能否稳定给出正确结果,以及是否会带来额外人工返工成本。
如何公平测试这四个模型
如果是生产决策,不建议只凭公开榜单拍板。更好的方法是从自己的业务里抽取一小组真实任务:例如仓库中的 bug 修复、内部文档问答、命令行自动化流程、表格或图像解析任务。然后同时记录:一次通过率、每个可接受结果的成本、重试次数、错误严重程度、运行时间和人工校验成本。
还要把数据来源分层看待。GPT-5.5 在本文中有 OpenAI 官方的 Terminal-Bench 2.0 与 SWE-Bench Pro 数据 [24]。DeepSeek V4 有官方 API 可用性说明 [
25]。Claude Opus 4.7 和 Kimi K2.6 的关键横向比较,则主要来自第三方资料 [
4][
6]。这三类证据的权重不应相同。
结论:没有万能冠军,只有更适合的起点
现有资料无法证明 DeepSeek V4、Kimi K2.6、Claude Opus 4.7 和 GPT-5.5 中有一个“通吃所有场景”的冠军。更合理的判断是:Claude Opus 4.7 在引用的编码相关数据中更强;GPT-5.5 在终端代理和 computer-use 类基准上证据最充分;Kimi K2.6 的看点是价格与质量之间的平衡;DeepSeek V4 则是一个已经可通过 API 调用、但仍需要用真实任务进一步评估的候选 [4][
24][
6][
25]。




