报告已发布2026年4月29日Last edited 2026年5月6日5 来源

GPT-5.5、Claude Opus 4.7、DeepSeek V4 与 Kimi K2.6：公开基准测试怎么读

最稳妥结论：四者可直接横向对齐的公开项目主要是 Terminal Bench 2.0，GPT 5.5 以 82.7% 排第一；但资料来自不同厂商表，不能合成为绝对总榜。[29][30][6] OpenAI 的表显示 GPT 5.5 在列出的项目上高于 Claude Opus 4.7；DeepSeek 模型卡显示 DS V4 Pro Max 在多数列项上高于 Kimi K2.6 Thinking，但 Kimi 在 GPQA Diamond 和 SWE Pro 上领先。[29][6] 产品选型应把共享基准、厂商表内比较和同条件业务复测分开看，尤其要复测工具权限、上下文、推理预算、延迟和成本。

使用 Studio Global AI 搜索并核查事实从“发现”浏览更多内容

17K0

GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试对比示意图 — GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比：哪些结论站得住AI 生成插图：多模型基准测试对比场景。
AI 提示
Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比：哪些结论站得住. Article summary: 最稳妥的读法是：目前四者能较清楚横向对齐的是 Terminal Bench 2.0，GPT 5.5 以 82.7% 领先；但公开分数来自不同厂商表，不能直接合成为绝对总排名。[29][30][6]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "核心结论：2026年5月的AI模型排行榜呈现"三足鼎立"格局：GPT-5.5领跑Agentic工作流（Terminal-Bench 82.7%），Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜：GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Reference image 2: visual subject "核心结论：2026年5月的AI模型排行榜呈现"三足鼎立"格局：GPT-5.5领跑Agentic工作流（Terminal-Bench 82.7%），Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜：GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail,
openai.com

公开基准测试可以帮助你快速缩小模型候选，但这四个名字不能直接被拼成一个“总分榜”。目前可引用资料分别来自 OpenAI 的 GPT-5.5 发布页和系统卡、Anthropic 的 Claude Opus 4.7 API 文档，以及 DeepSeek V4-Pro 模型卡；它们不是同一第三方、同一版本、同一评测配置下的完整四方同场测试。^[29]^[27]^[13]^[6]

先统一版本口径

本文把 DeepSeek V4 限定为 DeepSeek 模型卡中的 DS-V4-Pro Max，把 Kimi K2.6 限定为 K2.6 Thinking；这两个名称是 DeepSeek 表格里可直接引用的列名。^[6]

这一点很关键：DeepSeek 模型卡里的 GPT 和 Claude 列分别是 GPT-5.4 xHigh 与 Opus-4.6 Max，不是本文要比较的 GPT-5.5 与 Claude Opus 4.7。^[6] 因此，不能用 DeepSeek 那张表直接判断 DeepSeek V4-Pro Max 相对 GPT-5.5 或 Claude Opus 4.7 的完整胜负。

Anthropic 的 Claude Opus 4.7 公开 API 文档主要说明功能与调用方式，例如


task budgets

beta，而不是一张可与 OpenAI、DeepSeek、Kimi 直接合并的四方 benchmark 总表。^[13]

最稳的横向交集：Terminal-Bench 2.0

在本文可引用资料中，四个目标模型都能找到分数的共享项目是 Terminal-Bench 2.0。按这些公开表格，排序如下：

模型	Terminal-Bench 2.0	来源
GPT-5.5	82.7%	OpenAI 发布页及 MLQ.ai 摘要 ^[29]^[30]
Claude Opus 4.7	69.4%	OpenAI 发布页 ^[29]
DeepSeek V4-Pro Max	67.9%	DeepSeek V4-Pro 模型卡 ^[6]
Kimi K2.6 Thinking	66.7%	DeepSeek V4-Pro 模型卡 ^[6]

这能支持的结论很窄但有用：在 Terminal-Bench 2.0 这一项上，GPT-5.5 明显领先，Claude Opus 4.7 排第二，DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking 接近。^[29]^[30]^[6] 它不能自动推出 GPT-5.5 在所有业务场景中都领先，也不能替代同一评测框架、同一工具权限、同一上下文长度和同一推理预算下的复测。

GPT-5.5 与 Claude Opus 4.7：OpenAI 表内对比

OpenAI 发布页给出了 GPT-5.5 与 Claude Opus 4.7 的多项 benchmark 对比；在这些列出的项目上，GPT-5.5 的分数均高于 Claude Opus 4.7。^[29]

Benchmark（OpenAI 表）	GPT-5.5	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	69.4%
GDPval wins or ties	84.9%	80.3%
BrowseComp	84.4%	79.3%
FrontierMath Tier 1–3	51.7%	43.8%
FrontierMath Tier 4	35.4%	22.9%
CyberGym	81.8%	73.1%

这组数据适合支持一个有限结论：在 OpenAI 列出的这些项目里，GPT-5.5 强于 Claude Opus 4.7。^[29] OpenAI 的系统卡也把 GPT-5.5 定位为面向复杂真实工作的模型，包括写代码、在线研究、分析信息、创建文档和表格，以及跨工具完成任务等场景。^[27]

但它仍然是 OpenAI 发布页中的对比表，不等于独立第三方对四个目标模型进行的统一 harness 测试。^[29]

DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking：DeepSeek 表内对比

DeepSeek V4-Pro 模型卡提供了 DS-V4-Pro Max 与 K2.6 Thinking 的多项表内对比。^[6] 在这张表里，DeepSeek V4-Pro Max 在多数列项上高于 Kimi K2.6 Thinking，但 Kimi 也有明确领先项。^[6]

Benchmark（DeepSeek 模型卡）	DeepSeek V4-Pro Max	Kimi K2.6 Thinking	表内领先
MMLU-Pro	87.5	87.1	DeepSeek
SimpleQA-Verified	57.9	36.9	DeepSeek
Chinese-SimpleQA	84.4	75.9	DeepSeek
GPQA Diamond	90.1	90.5	Kimi
HLE	37.7	36.4	DeepSeek
LiveCodeBench	93.5	89.6	DeepSeek
HMMT 2026 Feb	95.2	92.7	DeepSeek
IMOAnswerBench	89.8	86.0	DeepSeek
Apex Shortlist	90.2	75.5	DeepSeek
SWE Pro	55.4	58.6	Kimi
Terminal-Bench 2.0	67.9	66.7	DeepSeek

这组数据的稳妥读法是：在 DeepSeek 模型卡列出的多数项目上，DS-V4-Pro Max 高于 K2.6 Thinking；但 Kimi K2.6 Thinking 在 GPQA Diamond 和 SWE Pro 上领先。^[6] 其中 MMLU-Pro 与 Terminal-Bench 2.0 的差距较小，产品决策时不应只看领先方向，还应看任务类型和误差空间。

为什么不能直接给四方绝对总排名

最容易出错的做法，是把 OpenAI 表、DeepSeek 表和 Anthropic 功能文档里的信息直接合并，然后算出一个“总冠军”。目前公开资料不支持这样做，原因有三点：

版本不一致。 OpenAI 表比较的是 GPT-5.5 与 Claude Opus 4.7；DeepSeek 表中的 GPT 和 Claude 列却是 GPT-5.4 xHigh 与 Opus-4.6 Max。^[29]^[6]
来源不一致。 现有资料分别来自厂商发布页、系统卡、API 文档和模型卡，并非同一第三方评测框架下的完整四方复测。^[29]^[27]^[13]^[6]
指标不等价。 GDPval、BrowseComp、FrontierMath、CyberGym、MMLU-Pro、GPQA Diamond、SWE Pro 等项目衡量的能力不同；没有明确权重时，把它们相加成一个总分会掩盖真实任务差异。^[29]^[6]

所以，公开 benchmark 更适合作为第一层筛选，而不是最终采购或架构选择的唯一依据。

产品选型应该怎么用这些分数

更实用的做法是分三层看：

共享 benchmark 层。 目前最清楚的四方交集是 Terminal-Bench 2.0；在这一项上，GPT-5.5 领先。^[29]^[30]^[6]
厂商表内部对比层。 OpenAI 表支持 GPT-5.5 在列出项目上高于 Claude Opus 4.7；DeepSeek 模型卡支持 DS-V4-Pro Max 在多数列项上高于 K2.6 Thinking。^[29]^[6]
业务复测层。 把你的真实任务拆成 coding、agent、reasoning、retrieval、tool use、latency、cost 等维度，在同一提示词、同一上下文、同一工具权限和同一评测规则下复测。

如果产品依赖较长的代理循环，Claude Opus 4.7 的


task budgets

值得单独测试：Anthropic 文档称它会给完整 agentic loop 提供粗略 token 目标，包括 thinking、tool calls、tool results 和 final output，并让模型看到预算倒计时以安排工作。^[13]

如果产品更接近复杂编码、在线研究、文档或表格生成、跨工具工作，GPT-5.5 的系统卡描述与这些任务更直接相关。^[27] 但即使某个模型在公开表上领先，也仍需要放进你的代码库、工具链、权限边界和失败恢复规则中复测。

最稳妥的排名说法

Terminal-Bench 2.0 单项： GPT-5.5 第一，Claude Opus 4.7 第二，DeepSeek V4-Pro Max 第三，Kimi K2.6 Thinking 第四。^[29]^[30]^[6]
OpenAI 表内部： GPT-5.5 在列出的项目上高于 Claude Opus 4.7。^[29]
DeepSeek 表内部： DS-V4-Pro Max 在多数列项上高于 Kimi K2.6 Thinking，但 Kimi 在 GPQA Diamond 和 SWE Pro 上领先。^[6]
四方绝对总排名： 证据不足。公开资料还没有提供同一第三方、同一版本、同一评测条件下的完整四方对测。^[29]^[13]^[6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

最稳妥结论：四者可直接横向对齐的公开项目主要是 Terminal Bench 2.0，GPT 5.5 以 82.7% 排第一；但资料来自不同厂商表，不能合成为绝对总榜。[29][30][6]
OpenAI 的表显示 GPT 5.5 在列出的项目上高于 Claude Opus 4.7；DeepSeek 模型卡显示 DS V4 Pro Max 在多数列项上高于 Kimi K2.6 Thinking，但 Kimi 在 GPQA Diamond 和 SWE Pro 上领先。[29][6]
产品选型应把共享基准、厂商表内比较和同条件业务复测分开看，尤其要复测工具权限、上下文、推理预算、延迟和成本。

人们还问

“GPT-5.5、Claude Opus 4.7、DeepSeek V4 与 Kimi K2.6：公开基准测试怎么读”的简短答案是什么？

最稳妥结论：四者可直接横向对齐的公开项目主要是 Terminal Bench 2.0，GPT 5.5 以 82.7% 排第一；但资料来自不同厂商表，不能合成为绝对总榜。[29][30][6]

首先要验证的关键点是什么？

接下来在实践中我应该做什么？

产品选型应把共享基准、厂商表内比较和同条件业务复测分开看，尤其要复测工具权限、上下文、推理预算、延迟和成本。

接下来我应该探索哪个相关主题？

继续“Claude Opus 4.7、GPT-5.5、DeepSeek V4 与 Kimi K2.6：2026 基准对比与选型结论”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较？

对照“DeepSeek V4 工程解析：1M 上下文、MoE 与 API 迁移要点”交叉检查此答案。

打开相关页面

继续你的研究

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7、GPT-5.5、DeepSeek V4 与 Kimi K2.6：2026 基准对比与选型结论

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 基准测试怎么读

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4 工程解析：1M 上下文、MoE 与 API 迁移要点

Northwest vs. Southeast Timber 弹性题解：为什么是 larger; larger

Northwest 与 Southeast Timber：替代性越高，为什么答案是 larger; larger？

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek会打败OpenAI、Claude、Gemini和Grok吗？关键不只在榜单

研究对话

你2026年4月25日

研究问题

我想研究并比较 GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试表现。

Studio Global AI2026年4月25日40 来源

引用的答案

可以，但要分开看。就我目前核实到的公开数字，四家里能直接横向对齐的共享基准其实很少；最清楚的一项是 Terminal-Bench 2.0：GPT-5.5 为 82.7%，Claude Opus 4.7 为 69.4%，DeepSeek V4-Pro Max 为 67.9%，Kimi K2.6 Thinking 为 66.7%。^[5]^[12] 这些数字主要来自 OpenAI 的 GPT-5.5 发布页和 DeepSeek V4-Pro 模型卡中的厂商对比表，所以可以做“有保留的比较”，但不足以稳妥给出一个统一总排名。^[5]^[12]

Key findings

可直接对齐的共享基准	GPT-5.5	Claude Opus 4.7	DeepSeek V4-Pro Max	Kimi K2.6 Thinking
Terminal-Bench 2.0 ^[5]^[12]	82.7%	69.4%	67.9%	66.7%

在 OpenAI 官方对比表中，凡是同时给出 GPT-5.5 和 Claude Opus 4.7 分数的项目，GPT-5.5 都更高，包括 Terminal-Bench 2.0（82.7% vs 69.4%）、GDPval wins or ties（84.9% vs 80.3%）、BrowseComp（84.4% vs 79.3%）、FrontierMath Tier 1–3（51.7% vs 43.8%）、FrontierMath Tier 4（35.4% vs 22.9%）和 CyberGym（81.8% vs 73.1%）。^[5]
在 DeepSeek 官方模型卡的对比表中，DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking 在多数已列项目上更高，包括 MMLU-Pro（87.5 vs 87.1）、SimpleQA-Verified（57.9 vs 36.9）、LiveCodeBench（93.5 vs 89.6）、HMMT 2026 Feb（95.2 vs 92.7）、IMOAnswerBench（89.8 vs 86.0）、Apex Shortlist（90.2 vs 75.5）以及 Terminal-Bench 2.0（67.9 vs 66.7）。^[12]
同一张 DeepSeek 对比表里，Kimi K2.6 Thinking 也有少数领先项，例如 GPQA Diamond（90.5 vs 90.1）和 SWE Pro（58.6 vs 55.4）。^[12]
Anthropic 我目前能直接核实到的官方 Opus 4.7 页面，重点是功能和规格更新：Claude Opus 4.7 被描述为其“最强的通用可用模型”，支持 1M token 上下文、128k 最大输出，以及自适应 thinking 和 task budgets 等能力。^[1] 但在我抓取到的官方页面内容里，没有像 OpenAI 或 DeepSeek 那样展开一张完整、可直接引用的 benchmark 总表。^[1]

Evidence notes

这次比较最好拆成两层：
1. 共享 benchmark 的直接对比，目前最可靠的是 Terminal-Bench 2.0。^[5]^[12]
2. 厂商自报表里的组内对比，比如 GPT-5.5 vs Claude Opus 4.7，或 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking。^[5]^[12]
OpenAI 的表比较的是 GPT-5.5 与 Claude Opus 4.7、Gemini 3.1 Pro 等模型。^[5]
DeepSeek 的表比较的是 DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking、GPT-5.4 xHigh、Claude Opus 4.6 Max、Gemini 3.1 Pro High 等模型。^[12]
因此，除了像 Terminal-Bench 2.0 这种真正共享的基准外，其他分数不适合被简单拼成一个“总分榜”。这是方法上的判断，不是某一家模型一定更强的确定性结论。

Limitations / uncertainty

我目前核实到的高权威公开数字，主要集中在 OpenAI 的 GPT-5.5 发布页、Anthropic 的 Opus 4.7 功能页，以及 DeepSeek 的 V4-Pro 模型卡。^[1]^[5]^[12]
最大限制是：这些表并不是同一第三方、同一 harness、同一工具权限、同一 reasoning effort 下的完整四方对测。^[5]^[12]
尤其是 GPT-5.5 / Claude Opus 4.7 的官方表，与 DeepSeek V4 / Kimi K2.6 的官方表，不共用同一组对手版本；前者是 GPT-5.5 对 Opus 4.7，后者是 DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking、GPT-5.4 xHigh、Opus 4.6 Max。^[5]^[12]
所以如果问题是“谁是四者里的绝对 benchmark 第一”，目前公开证据仍然是：Insufficient evidence.

Summary

如果你只看当前可直接对齐的共享公开基准，GPT-5.5 在这四个里最强，至少在 Terminal-Bench 2.0 上明显领先。^[5]^[12]
如果你只看 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking，DeepSeek 在其官方表列出的多数项目上占优，但 Kimi 在 GPQA Diamond 和 SWE Pro 上有亮点。^[12]
对 Claude Opus 4.7，目前能较有把握地说：在 OpenAI 官方表里，它落后于 GPT-5.5；但缺少与 DeepSeek V4 和 Kimi K2.6 的同版、同条件、完整第三方对照，因此不宜直接下四方统一总排名。^[5]

如果你愿意，我下一步可以直接帮你整理成一张更实用的对比表，按 Coding / Agent / Reasoning / Vision 四个维度分开排，并把“共享 benchmark”和“厂商自报 benchmark”明确分栏。

来源

[6] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co
Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...
[13] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com
Task budgets (beta) Claude Opus 4.7 introduces task budgets. A task budget gives Claude a rough estimate of how many tokens to target for a full agentic loop, including thinking, tool calls, tool results, and final output. The model sees a running countdown...
[27] GPT-5.5 System Card - OpenAIopenai.com
GPT-5.5 System Card OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Try ChatGPT(opens in a new window)Login OpenAI April 23, 2026 SafetyPublication GPT‑5.5...
[29] Introducing GPT-5.5openai.com
Introducing GPT-5.5 OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Introducing GPT-5.5 OpenAI Table of contents Model capabilities Next-generation inferenc...
[30] OpenAI Launches GPT-5.5 as Its Most Advanced AI Model Yet - MLQ.aimlq.ai
Key Points OpenAI launched GPT-5.5 on April 24, 2026, highlighting improvements in agentic coding, computer use, knowledge tasks and scientific research. The model scores 82.7% on Terminal-Bench 2.0 and 73.1% on Expert-SWE benchmarks14. Available now to Plu...

热门发现

报告已发布2026年4月29日Last edited 2026年5月6日5 来源

GPT-5.5、Claude Opus 4.7、DeepSeek V4 与 Kimi K2.6：公开基准测试怎么读

使用 Studio Global AI 搜索并核查事实从“发现”浏览更多内容

17K0

先统一版本口径

本文把 DeepSeek V4 限定为 DeepSeek 模型卡中的 DS-V4-Pro Max，把 Kimi K2.6 限定为 K2.6 Thinking；这两个名称是 DeepSeek 表格里可直接引用的列名。^[6]

Anthropic 的 Claude Opus 4.7 公开 API 文档主要说明功能与调用方式，例如


task budgets

beta，而不是一张可与 OpenAI、DeepSeek、Kimi 直接合并的四方 benchmark 总表。^[13]

最稳的横向交集：Terminal-Bench 2.0

在本文可引用资料中，四个目标模型都能找到分数的共享项目是 Terminal-Bench 2.0。按这些公开表格，排序如下：

模型	Terminal-Bench 2.0	来源
GPT-5.5	82.7%	OpenAI 发布页及 MLQ.ai 摘要 ^[29]^[30]
Claude Opus 4.7	69.4%	OpenAI 发布页 ^[29]
DeepSeek V4-Pro Max	67.9%	DeepSeek V4-Pro 模型卡 ^[6]
Kimi K2.6 Thinking	66.7%	DeepSeek V4-Pro 模型卡 ^[6]

GPT-5.5 与 Claude Opus 4.7：OpenAI 表内对比

OpenAI 发布页给出了 GPT-5.5 与 Claude Opus 4.7 的多项 benchmark 对比；在这些列出的项目上，GPT-5.5 的分数均高于 Claude Opus 4.7。^[29]

Benchmark（OpenAI 表）	GPT-5.5	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	69.4%
GDPval wins or ties	84.9%	80.3%
BrowseComp	84.4%	79.3%
FrontierMath Tier 1–3	51.7%	43.8%
FrontierMath Tier 4	35.4%	22.9%
CyberGym	81.8%	73.1%

但它仍然是 OpenAI 发布页中的对比表，不等于独立第三方对四个目标模型进行的统一 harness 测试。^[29]

DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking：DeepSeek 表内对比

Benchmark（DeepSeek 模型卡）	DeepSeek V4-Pro Max	Kimi K2.6 Thinking	表内领先
MMLU-Pro	87.5	87.1	DeepSeek
SimpleQA-Verified	57.9	36.9	DeepSeek
Chinese-SimpleQA	84.4	75.9	DeepSeek
GPQA Diamond	90.1	90.5	Kimi
HLE	37.7	36.4	DeepSeek
LiveCodeBench	93.5	89.6	DeepSeek
HMMT 2026 Feb	95.2	92.7	DeepSeek
IMOAnswerBench	89.8	86.0	DeepSeek
Apex Shortlist	90.2	75.5	DeepSeek
SWE Pro	55.4	58.6	Kimi
Terminal-Bench 2.0	67.9	66.7	DeepSeek

为什么不能直接给四方绝对总排名

版本不一致。 OpenAI 表比较的是 GPT-5.5 与 Claude Opus 4.7；DeepSeek 表中的 GPT 和 Claude 列却是 GPT-5.4 xHigh 与 Opus-4.6 Max。^[29]^[6]
来源不一致。 现有资料分别来自厂商发布页、系统卡、API 文档和模型卡，并非同一第三方评测框架下的完整四方复测。^[29]^[27]^[13]^[6]
指标不等价。 GDPval、BrowseComp、FrontierMath、CyberGym、MMLU-Pro、GPQA Diamond、SWE Pro 等项目衡量的能力不同；没有明确权重时，把它们相加成一个总分会掩盖真实任务差异。^[29]^[6]

所以，公开 benchmark 更适合作为第一层筛选，而不是最终采购或架构选择的唯一依据。

产品选型应该怎么用这些分数

更实用的做法是分三层看：

共享 benchmark 层。 目前最清楚的四方交集是 Terminal-Bench 2.0；在这一项上，GPT-5.5 领先。^[29]^[30]^[6]
厂商表内部对比层。 OpenAI 表支持 GPT-5.5 在列出项目上高于 Claude Opus 4.7；DeepSeek 模型卡支持 DS-V4-Pro Max 在多数列项上高于 K2.6 Thinking。^[29]^[6]
业务复测层。 把你的真实任务拆成 coding、agent、reasoning、retrieval、tool use、latency、cost 等维度，在同一提示词、同一上下文、同一工具权限和同一评测规则下复测。

如果产品依赖较长的代理循环，Claude Opus 4.7 的


task budgets

最稳妥的排名说法

Terminal-Bench 2.0 单项： GPT-5.5 第一，Claude Opus 4.7 第二，DeepSeek V4-Pro Max 第三，Kimi K2.6 Thinking 第四。^[29]^[30]^[6]
OpenAI 表内部： GPT-5.5 在列出的项目上高于 Claude Opus 4.7。^[29]
DeepSeek 表内部： DS-V4-Pro Max 在多数列项上高于 Kimi K2.6 Thinking，但 Kimi 在 GPQA Diamond 和 SWE Pro 上领先。^[6]
四方绝对总排名： 证据不足。公开资料还没有提供同一第三方、同一版本、同一评测条件下的完整四方对测。^[29]^[13]^[6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

最稳妥结论：四者可直接横向对齐的公开项目主要是 Terminal Bench 2.0，GPT 5.5 以 82.7% 排第一；但资料来自不同厂商表，不能合成为绝对总榜。[29][30][6]
OpenAI 的表显示 GPT 5.5 在列出的项目上高于 Claude Opus 4.7；DeepSeek 模型卡显示 DS V4 Pro Max 在多数列项上高于 Kimi K2.6 Thinking，但 Kimi 在 GPQA Diamond 和 SWE Pro 上领先。[29][6]
产品选型应把共享基准、厂商表内比较和同条件业务复测分开看，尤其要复测工具权限、上下文、推理预算、延迟和成本。

人们还问

“GPT-5.5、Claude Opus 4.7、DeepSeek V4 与 Kimi K2.6：公开基准测试怎么读”的简短答案是什么？

最稳妥结论：四者可直接横向对齐的公开项目主要是 Terminal Bench 2.0，GPT 5.5 以 82.7% 排第一；但资料来自不同厂商表，不能合成为绝对总榜。[29][30][6]

首先要验证的关键点是什么？

接下来在实践中我应该做什么？

产品选型应把共享基准、厂商表内比较和同条件业务复测分开看，尤其要复测工具权限、上下文、推理预算、延迟和成本。

接下来我应该探索哪个相关主题？

继续“Claude Opus 4.7、GPT-5.5、DeepSeek V4 与 Kimi K2.6：2026 基准对比与选型结论”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较？

对照“DeepSeek V4 工程解析：1M 上下文、MoE 与 API 迁移要点”交叉检查此答案。

打开相关页面

继续你的研究

Claude Opus 4.7、GPT-5.5、DeepSeek V4 与 Kimi K2.6：2026 基准对比与选型结论

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 基准测试怎么读

DeepSeek V4 工程解析：1M 上下文、MoE 与 API 迁移要点

Northwest vs. Southeast Timber 弹性题解：为什么是 larger; larger

Northwest 与 Southeast Timber：替代性越高，为什么答案是 larger; larger？

DeepSeek会打败OpenAI、Claude、Gemini和Grok吗？关键不只在榜单

研究对话

你2026年4月25日

研究问题

我想研究并比较 GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试表现。

Studio Global AI2026年4月25日40 来源

引用的答案

Key findings

可直接对齐的共享基准	GPT-5.5	Claude Opus 4.7	DeepSeek V4-Pro Max	Kimi K2.6 Thinking
Terminal-Bench 2.0 ^[5]^[12]	82.7%	69.4%	67.9%	66.7%

在 OpenAI 官方对比表中，凡是同时给出 GPT-5.5 和 Claude Opus 4.7 分数的项目，GPT-5.5 都更高，包括 Terminal-Bench 2.0（82.7% vs 69.4%）、GDPval wins or ties（84.9% vs 80.3%）、BrowseComp（84.4% vs 79.3%）、FrontierMath Tier 1–3（51.7% vs 43.8%）、FrontierMath Tier 4（35.4% vs 22.9%）和 CyberGym（81.8% vs 73.1%）。^[5]
在 DeepSeek 官方模型卡的对比表中，DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking 在多数已列项目上更高，包括 MMLU-Pro（87.5 vs 87.1）、SimpleQA-Verified（57.9 vs 36.9）、LiveCodeBench（93.5 vs 89.6）、HMMT 2026 Feb（95.2 vs 92.7）、IMOAnswerBench（89.8 vs 86.0）、Apex Shortlist（90.2 vs 75.5）以及 Terminal-Bench 2.0（67.9 vs 66.7）。^[12]
同一张 DeepSeek 对比表里，Kimi K2.6 Thinking 也有少数领先项，例如 GPQA Diamond（90.5 vs 90.1）和 SWE Pro（58.6 vs 55.4）。^[12]
Anthropic 我目前能直接核实到的官方 Opus 4.7 页面，重点是功能和规格更新：Claude Opus 4.7 被描述为其“最强的通用可用模型”，支持 1M token 上下文、128k 最大输出，以及自适应 thinking 和 task budgets 等能力。^[1] 但在我抓取到的官方页面内容里，没有像 OpenAI 或 DeepSeek 那样展开一张完整、可直接引用的 benchmark 总表。^[1]

Evidence notes

这次比较最好拆成两层：
1. 共享 benchmark 的直接对比，目前最可靠的是 Terminal-Bench 2.0。^[5]^[12]
2. 厂商自报表里的组内对比，比如 GPT-5.5 vs Claude Opus 4.7，或 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking。^[5]^[12]
OpenAI 的表比较的是 GPT-5.5 与 Claude Opus 4.7、Gemini 3.1 Pro 等模型。^[5]
DeepSeek 的表比较的是 DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking、GPT-5.4 xHigh、Claude Opus 4.6 Max、Gemini 3.1 Pro High 等模型。^[12]
因此，除了像 Terminal-Bench 2.0 这种真正共享的基准外，其他分数不适合被简单拼成一个“总分榜”。这是方法上的判断，不是某一家模型一定更强的确定性结论。

Limitations / uncertainty

我目前核实到的高权威公开数字，主要集中在 OpenAI 的 GPT-5.5 发布页、Anthropic 的 Opus 4.7 功能页，以及 DeepSeek 的 V4-Pro 模型卡。^[1]^[5]^[12]
最大限制是：这些表并不是同一第三方、同一 harness、同一工具权限、同一 reasoning effort 下的完整四方对测。^[5]^[12]
尤其是 GPT-5.5 / Claude Opus 4.7 的官方表，与 DeepSeek V4 / Kimi K2.6 的官方表，不共用同一组对手版本；前者是 GPT-5.5 对 Opus 4.7，后者是 DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking、GPT-5.4 xHigh、Opus 4.6 Max。^[5]^[12]
所以如果问题是“谁是四者里的绝对 benchmark 第一”，目前公开证据仍然是：Insufficient evidence.

Summary

如果你只看当前可直接对齐的共享公开基准，GPT-5.5 在这四个里最强，至少在 Terminal-Bench 2.0 上明显领先。^[5]^[12]
如果你只看 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking，DeepSeek 在其官方表列出的多数项目上占优，但 Kimi 在 GPQA Diamond 和 SWE Pro 上有亮点。^[12]
对 Claude Opus 4.7，目前能较有把握地说：在 OpenAI 官方表里，它落后于 GPT-5.5；但缺少与 DeepSeek V4 和 Kimi K2.6 的同版、同条件、完整第三方对照，因此不宜直接下四方统一总排名。^[5]

来源

[6] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co
Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...
[13] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com
Task budgets (beta) Claude Opus 4.7 introduces task budgets. A task budget gives Claude a rough estimate of how many tokens to target for a full agentic loop, including thinking, tool calls, tool results, and final output. The model sees a running countdown...
[27] GPT-5.5 System Card - OpenAIopenai.com
GPT-5.5 System Card OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Try ChatGPT(opens in a new window)Login OpenAI April 23, 2026 SafetyPublication GPT‑5.5...
[29] Introducing GPT-5.5openai.com
Introducing GPT-5.5 OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Introducing GPT-5.5 OpenAI Table of contents Model capabilities Next-generation inferenc...
[30] OpenAI Launches GPT-5.5 as Its Most Advanced AI Model Yet - MLQ.aimlq.ai
Key Points OpenAI launched GPT-5.5 on April 24, 2026, highlighting improvements in agentic coding, computer use, knowledge tasks and scientific research. The model scores 82.7% on Terminal-Bench 2.0 and 73.1% on Expert-SWE benchmarks14. Available now to Plu...

热门发现

报告已发布2026年4月29日Last edited 2026年5月6日5 来源

GPT-5.5、Claude Opus 4.7、DeepSeek V4 与 Kimi K2.6：公开基准测试怎么读

使用 Studio Global AI 搜索并核查事实从“发现”浏览更多内容

17K0

先统一版本口径

本文把 DeepSeek V4 限定为 DeepSeek 模型卡中的 DS-V4-Pro Max，把 Kimi K2.6 限定为 K2.6 Thinking；这两个名称是 DeepSeek 表格里可直接引用的列名。^[6]

Anthropic 的 Claude Opus 4.7 公开 API 文档主要说明功能与调用方式，例如


task budgets

beta，而不是一张可与 OpenAI、DeepSeek、Kimi 直接合并的四方 benchmark 总表。^[13]

最稳的横向交集：Terminal-Bench 2.0

在本文可引用资料中，四个目标模型都能找到分数的共享项目是 Terminal-Bench 2.0。按这些公开表格，排序如下：

模型	Terminal-Bench 2.0	来源
GPT-5.5	82.7%	OpenAI 发布页及 MLQ.ai 摘要 ^[29]^[30]
Claude Opus 4.7	69.4%	OpenAI 发布页 ^[29]
DeepSeek V4-Pro Max	67.9%	DeepSeek V4-Pro 模型卡 ^[6]
Kimi K2.6 Thinking	66.7%	DeepSeek V4-Pro 模型卡 ^[6]

GPT-5.5 与 Claude Opus 4.7：OpenAI 表内对比

OpenAI 发布页给出了 GPT-5.5 与 Claude Opus 4.7 的多项 benchmark 对比；在这些列出的项目上，GPT-5.5 的分数均高于 Claude Opus 4.7。^[29]

Benchmark（OpenAI 表）	GPT-5.5	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	69.4%
GDPval wins or ties	84.9%	80.3%
BrowseComp	84.4%	79.3%
FrontierMath Tier 1–3	51.7%	43.8%
FrontierMath Tier 4	35.4%	22.9%
CyberGym	81.8%	73.1%

但它仍然是 OpenAI 发布页中的对比表，不等于独立第三方对四个目标模型进行的统一 harness 测试。^[29]

DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking：DeepSeek 表内对比

Benchmark（DeepSeek 模型卡）	DeepSeek V4-Pro Max	Kimi K2.6 Thinking	表内领先
MMLU-Pro	87.5	87.1	DeepSeek
SimpleQA-Verified	57.9	36.9	DeepSeek
Chinese-SimpleQA	84.4	75.9	DeepSeek
GPQA Diamond	90.1	90.5	Kimi
HLE	37.7	36.4	DeepSeek
LiveCodeBench	93.5	89.6	DeepSeek
HMMT 2026 Feb	95.2	92.7	DeepSeek
IMOAnswerBench	89.8	86.0	DeepSeek
Apex Shortlist	90.2	75.5	DeepSeek
SWE Pro	55.4	58.6	Kimi
Terminal-Bench 2.0	67.9	66.7	DeepSeek

为什么不能直接给四方绝对总排名

版本不一致。 OpenAI 表比较的是 GPT-5.5 与 Claude Opus 4.7；DeepSeek 表中的 GPT 和 Claude 列却是 GPT-5.4 xHigh 与 Opus-4.6 Max。^[29]^[6]
来源不一致。 现有资料分别来自厂商发布页、系统卡、API 文档和模型卡，并非同一第三方评测框架下的完整四方复测。^[29]^[27]^[13]^[6]
指标不等价。 GDPval、BrowseComp、FrontierMath、CyberGym、MMLU-Pro、GPQA Diamond、SWE Pro 等项目衡量的能力不同；没有明确权重时，把它们相加成一个总分会掩盖真实任务差异。^[29]^[6]

所以，公开 benchmark 更适合作为第一层筛选，而不是最终采购或架构选择的唯一依据。

产品选型应该怎么用这些分数

更实用的做法是分三层看：

共享 benchmark 层。 目前最清楚的四方交集是 Terminal-Bench 2.0；在这一项上，GPT-5.5 领先。^[29]^[30]^[6]
厂商表内部对比层。 OpenAI 表支持 GPT-5.5 在列出项目上高于 Claude Opus 4.7；DeepSeek 模型卡支持 DS-V4-Pro Max 在多数列项上高于 K2.6 Thinking。^[29]^[6]
业务复测层。 把你的真实任务拆成 coding、agent、reasoning、retrieval、tool use、latency、cost 等维度，在同一提示词、同一上下文、同一工具权限和同一评测规则下复测。

如果产品依赖较长的代理循环，Claude Opus 4.7 的


task budgets

最稳妥的排名说法

Terminal-Bench 2.0 单项： GPT-5.5 第一，Claude Opus 4.7 第二，DeepSeek V4-Pro Max 第三，Kimi K2.6 Thinking 第四。^[29]^[30]^[6]
OpenAI 表内部： GPT-5.5 在列出的项目上高于 Claude Opus 4.7。^[29]
DeepSeek 表内部： DS-V4-Pro Max 在多数列项上高于 Kimi K2.6 Thinking，但 Kimi 在 GPQA Diamond 和 SWE Pro 上领先。^[6]
四方绝对总排名： 证据不足。公开资料还没有提供同一第三方、同一版本、同一评测条件下的完整四方对测。^[29]^[13]^[6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

最稳妥结论：四者可直接横向对齐的公开项目主要是 Terminal Bench 2.0，GPT 5.5 以 82.7% 排第一；但资料来自不同厂商表，不能合成为绝对总榜。[29][30][6]
OpenAI 的表显示 GPT 5.5 在列出的项目上高于 Claude Opus 4.7；DeepSeek 模型卡显示 DS V4 Pro Max 在多数列项上高于 Kimi K2.6 Thinking，但 Kimi 在 GPQA Diamond 和 SWE Pro 上领先。[29][6]
产品选型应把共享基准、厂商表内比较和同条件业务复测分开看，尤其要复测工具权限、上下文、推理预算、延迟和成本。

人们还问

“GPT-5.5、Claude Opus 4.7、DeepSeek V4 与 Kimi K2.6：公开基准测试怎么读”的简短答案是什么？

最稳妥结论：四者可直接横向对齐的公开项目主要是 Terminal Bench 2.0，GPT 5.5 以 82.7% 排第一；但资料来自不同厂商表，不能合成为绝对总榜。[29][30][6]

首先要验证的关键点是什么？

接下来在实践中我应该做什么？

产品选型应把共享基准、厂商表内比较和同条件业务复测分开看，尤其要复测工具权限、上下文、推理预算、延迟和成本。

接下来我应该探索哪个相关主题？

继续“Claude Opus 4.7、GPT-5.5、DeepSeek V4 与 Kimi K2.6：2026 基准对比与选型结论”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较？

对照“DeepSeek V4 工程解析：1M 上下文、MoE 与 API 迁移要点”交叉检查此答案。

打开相关页面

继续你的研究

研究对话

你2026年4月25日

研究问题

我想研究并比较 GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试表现。

Studio Global AI2026年4月25日40 来源

引用的答案

Key findings

可直接对齐的共享基准	GPT-5.5	Claude Opus 4.7	DeepSeek V4-Pro Max	Kimi K2.6 Thinking
Terminal-Bench 2.0 ^[5]^[12]	82.7%	69.4%	67.9%	66.7%

在 OpenAI 官方对比表中，凡是同时给出 GPT-5.5 和 Claude Opus 4.7 分数的项目，GPT-5.5 都更高，包括 Terminal-Bench 2.0（82.7% vs 69.4%）、GDPval wins or ties（84.9% vs 80.3%）、BrowseComp（84.4% vs 79.3%）、FrontierMath Tier 1–3（51.7% vs 43.8%）、FrontierMath Tier 4（35.4% vs 22.9%）和 CyberGym（81.8% vs 73.1%）。^[5]
在 DeepSeek 官方模型卡的对比表中，DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking 在多数已列项目上更高，包括 MMLU-Pro（87.5 vs 87.1）、SimpleQA-Verified（57.9 vs 36.9）、LiveCodeBench（93.5 vs 89.6）、HMMT 2026 Feb（95.2 vs 92.7）、IMOAnswerBench（89.8 vs 86.0）、Apex Shortlist（90.2 vs 75.5）以及 Terminal-Bench 2.0（67.9 vs 66.7）。^[12]
同一张 DeepSeek 对比表里，Kimi K2.6 Thinking 也有少数领先项，例如 GPQA Diamond（90.5 vs 90.1）和 SWE Pro（58.6 vs 55.4）。^[12]
Anthropic 我目前能直接核实到的官方 Opus 4.7 页面，重点是功能和规格更新：Claude Opus 4.7 被描述为其“最强的通用可用模型”，支持 1M token 上下文、128k 最大输出，以及自适应 thinking 和 task budgets 等能力。^[1] 但在我抓取到的官方页面内容里，没有像 OpenAI 或 DeepSeek 那样展开一张完整、可直接引用的 benchmark 总表。^[1]

Evidence notes

这次比较最好拆成两层：
1. 共享 benchmark 的直接对比，目前最可靠的是 Terminal-Bench 2.0。^[5]^[12]
2. 厂商自报表里的组内对比，比如 GPT-5.5 vs Claude Opus 4.7，或 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking。^[5]^[12]
OpenAI 的表比较的是 GPT-5.5 与 Claude Opus 4.7、Gemini 3.1 Pro 等模型。^[5]
DeepSeek 的表比较的是 DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking、GPT-5.4 xHigh、Claude Opus 4.6 Max、Gemini 3.1 Pro High 等模型。^[12]
因此，除了像 Terminal-Bench 2.0 这种真正共享的基准外，其他分数不适合被简单拼成一个“总分榜”。这是方法上的判断，不是某一家模型一定更强的确定性结论。

Limitations / uncertainty

我目前核实到的高权威公开数字，主要集中在 OpenAI 的 GPT-5.5 发布页、Anthropic 的 Opus 4.7 功能页，以及 DeepSeek 的 V4-Pro 模型卡。^[1]^[5]^[12]
最大限制是：这些表并不是同一第三方、同一 harness、同一工具权限、同一 reasoning effort 下的完整四方对测。^[5]^[12]
尤其是 GPT-5.5 / Claude Opus 4.7 的官方表，与 DeepSeek V4 / Kimi K2.6 的官方表，不共用同一组对手版本；前者是 GPT-5.5 对 Opus 4.7，后者是 DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking、GPT-5.4 xHigh、Opus 4.6 Max。^[5]^[12]
所以如果问题是“谁是四者里的绝对 benchmark 第一”，目前公开证据仍然是：Insufficient evidence.

Summary

如果你只看当前可直接对齐的共享公开基准，GPT-5.5 在这四个里最强，至少在 Terminal-Bench 2.0 上明显领先。^[5]^[12]
如果你只看 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking，DeepSeek 在其官方表列出的多数项目上占优，但 Kimi 在 GPQA Diamond 和 SWE Pro 上有亮点。^[12]
对 Claude Opus 4.7，目前能较有把握地说：在 OpenAI 官方表里，它落后于 GPT-5.5；但缺少与 DeepSeek V4 和 Kimi K2.6 的同版、同条件、完整第三方对照，因此不宜直接下四方统一总排名。^[5]

来源

[6] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co
Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...
[13] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com
Task budgets (beta) Claude Opus 4.7 introduces task budgets. A task budget gives Claude a rough estimate of how many tokens to target for a full agentic loop, including thinking, tool calls, tool results, and final output. The model sees a running countdown...
[27] GPT-5.5 System Card - OpenAIopenai.com
GPT-5.5 System Card OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Try ChatGPT(opens in a new window)Login OpenAI April 23, 2026 SafetyPublication GPT‑5.5...
[29] Introducing GPT-5.5openai.com
Introducing GPT-5.5 OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Introducing GPT-5.5 OpenAI Table of contents Model capabilities Next-generation inferenc...
[30] OpenAI Launches GPT-5.5 as Its Most Advanced AI Model Yet - MLQ.aimlq.ai
Key Points OpenAI launched GPT-5.5 on April 24, 2026, highlighting improvements in agentic coding, computer use, knowledge tasks and scientific research. The model scores 82.7% on Terminal-Bench 2.0 and 73.1% on Expert-SWE benchmarks14. Available now to Plu...