报告已发布3个月前Last edited 2个月前18 来源

GPT-5.5、Claude Opus 4.7、Kimi K2.6 与 DeepSeek V4：谁在哪些基准领先

没有绝对总冠军：Claude Opus 4.7 领先 GPQA Diamond 和无工具 HLE，GPT 5.5 领先 Terminal Bench 2.0，GPT 5.5 Pro 领先有工具 HLE 和 BrowseComp [6]。 Kimi K2.6 不能直接并入同一轮横评，但模型卡显示其 SWE Bench Verified 为 80.2、SWE Bench Pro 为 58.6、Terminal Bench 2.0 为 66.7 [25][37]。

使用 Studio Global AI 搜索并核查事实浏览更多热门页面

Сравнение AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам — GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахИллюстрация к сравнению GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по ключевым AI-бенчмаркам.
AI 提示
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond — 94.2% — и HLE без инструментов — 46.9%, GPT 5.5 — в Terminal Bench 2.0 с 82.7%, а GPT 5.5 Pro — в HLE с инструментами и BrowseComp.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2.6 vs GPT-5.5 vs DeepSeek V4](https://www.youtube.com/watch?v=hqPVqQtgWOc). 🤯xCreate 8.4K views • 1 day ago Live Playlist ()Mix (50+)](https://www.youtube.com/watch?v=3928" source context "Kimi K2.6 vs GPT-5.5 vs DeepSeek V4 - YouTube" Reference image 2: visual subject "# GPT-5.5vs Claude Opus 4.7. Get a detailed comparison of AI language modelsOpenAI's GPT-5.5andAnthropic's
openai.com

先说结论：这不是一场能用一个冠军概括的比赛。最可比的一张表覆盖 GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7 和 DeepSeek-V4-Pro-Max；Kimi K2.6 的数字来自单独的 Hugging Face 模型卡和 eval 文件，因此不应把它当作同一次 head-to-head 横评的一部分来解读。

还要注意 DeepSeek 的版本差异：综合表里写的是 DeepSeek-V4-Pro-Max，而另一处 SWE-Bench Verified 数据对应的是 DeepSeek V4-Pro，不是 Pro-Max 。所以更准确的说法是：DeepSeek V4 不同版本在不同来源中有不同结果，不能用一个数字代表整条产品线。

先按任务选模型

**复杂推理、不用外部工具：**优先测试 Claude Opus 4.7。它在综合表的 GPQA Diamond 和 Humanity’s Last Exam 无工具行领先。
**终端型智能体任务：**GPT-5.5 最突出。Terminal-Bench 2.0 上，GPT-5.5 为 82.7%，高于 Claude Opus 4.7 的 69.4% 和 DeepSeek-V4-Pro-Max 的 67.9% 。
**带工具推理与浏览类任务：**GPT-5.5 Pro 更值得先测。它在有工具 HLE 为 57.2%，BrowseComp 为 90.1%，均为综合表中对应行的最高值。
**代码任务与可用权重实验：**Kimi K2.6 值得单独评估。其模型卡给出 SWE-Bench Verified 80.2、SWE-Bench Pro 58.6、Terminal-Bench 2.0 66.7 。另有来源称 K2.6 权重在 Hugging Face 上可用，并可通过 vLLM、SGLang 或 KTransformers 运行。
**预算比第一名更重要的场景：**DeepSeek V4 在这组基准中不是榜首，但 Mashable 和 DataCamp 给出的 API 价格为每 100 万输入 token 1.74 美元、每 100 万输出 token 3.48 美元；相比之下，GPT-5.5 为 5/30 美元，Claude Opus 4.7 为 5/25 美元。

关键基准一览

基准测试	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	按可用数据的领先者
GPQA Diamond	93.6%	未列出	94.2%	90.1%，DeepSeek-V4-Pro-Max	未列出	Claude Opus 4.7
Humanity’s Last Exam，无工具	41.4%	43.1%	46.9%	37.7%，DeepSeek-V4-Pro-Max	未列出	Claude Opus 4.7
Humanity’s Last Exam，有工具	52.2%	57.2%	54.7%	48.2%，DeepSeek-V4-Pro-Max	未列出	GPT-5.5 Pro
Terminal-Bench 2.0	82.7%	未列出	69.4%	67.9%，DeepSeek-V4-Pro-Max	66.7	GPT-5.5
SWE-Bench Pro / SWE Pro	58.6%	未列出	64.3%	55.4%，DeepSeek-V4-Pro-Max	58.6	Claude Opus 4.7
BrowseComp	84.4%	90.1%	79.3%	83.4%，DeepSeek-V4-Pro-Max	未列出	GPT-5.5 Pro
MCP Atlas / MCPAtlas Public	75.3%	未列出	79.1%	73.6%，DeepSeek-V4-Pro-Max	未列出	Claude Opus 4.7
SWE-Bench Verified	未列出	未列出	87.6%，来自单独比较	80.6%，DeepSeek V4-Pro，非 Pro-Max	80.2	没有覆盖全部模型的共同一行

这里的“未列出”不是零分，而是相应来源没有给出该模型在这一行的数值。

推理能力：Claude 无工具更强，GPT-5.5 Pro 带工具反超

在 GPQA Diamond 上，Claude Opus 4.7 与 GPT-5.5 的差距不大：94.2% 对 93.6%；DeepSeek-V4-Pro-Max 为 90.1% 。但在 Humanity’s Last Exam 无工具设置下，Claude 的优势更明显：46.9%，高于 GPT-5.5 的 41.4%、GPT-5.5 Pro 的 43.1% 和 DeepSeek-V4-Pro-Max 的 37.7% 。

一旦允许使用工具，排序就变了。HLE 有工具一行中，GPT-5.5 Pro 为 57.2%，Claude Opus 4.7 为 54.7%，GPT-5.5 为 52.2%，DeepSeek-V4-Pro-Max 为 48.2% 。因此，比较稳妥的结论是：无工具纯推理优先看 Claude，工具增强推理则优先看 GPT-5.5 Pro 的可用结果。

代码与智能体任务：GPT-5.5 在 Terminal-Bench 拉开最大差距

这组数据中，GPT-5.5 最明显的领先来自 Terminal-Bench 2.0：82.7%，而 Claude Opus 4.7 为 69.4%，DeepSeek-V4-Pro-Max 为 67.9% 。Kimi K2.6 的模型卡给出 Terminal-Bench 2.0 为 66.7，LLM Stats 的 Terminal-Bench 2.0 榜单也列出 Kimi K2.6 为 0.667、Claude Opus 4.7 为 0.694 。换句话说，在这个尺度上，Kimi 与 Claude、DeepSeek 接近，但明显低于综合表中的 GPT-5.5 。

SWE-Bench Pro / SWE Pro 的格局不同：Claude Opus 4.7 以 64.3% 领先，GPT-5.5 为 58.6%，DeepSeek-V4-Pro-Max 为 55.4% 。Kimi K2.6 在 Hugging Face 模型卡中也标为 58.6，但这不是与 GPT-5.5、Claude 和 DeepSeek 同一张综合表的统一测试运行。

SWE-Bench Verified 更不适合被做成四款模型的总排名。Kimi K2.6 有 80.2 的模型卡和 eval 文件记录；另一个 DeepSeek V4 来源给出 Claude Opus 4.7 为 87.6%、DeepSeek V4-Pro 为 80.6%，但没有给出 GPT-5.5 的完整同排数据，而且 DeepSeek 版本是 V4-Pro，不是 V4-Pro-Max 。

分模型看：各自强在哪里

GPT-5.5 与 GPT-5.5 Pro

GPT-5.5 在 Terminal-Bench 2.0 上最亮眼，82.7% 是综合表该行最高结果。GPT-5.5 Pro 并非每一行都有数据，但在有数据的行里表现强势：HLE 有工具 57.2%，BrowseComp 90.1%，均排第一。

实际选型时，可以把 GPT-5.5 放在终端型智能体任务的首轮候选；如果任务涉及工具调用、浏览或外部动作辅助推理，则优先测试 GPT-5.5 Pro 。

Claude Opus 4.7

Claude Opus 4.7 在综合表多项领先：GPQA Diamond 94.2%、HLE 无工具 46.9%、SWE-Bench Pro / SWE Pro 64.3%、MCP Atlas / MCPAtlas Public 79.1% 。但它在 Terminal-Bench 2.0 上低于 GPT-5.5，在 HLE 有工具和 BrowseComp 上低于 GPT-5.5 Pro 。

如果你的任务更像复杂推理、无工具问答，或接近 SWE-Bench Pro 的代码修复与软件工程评估，Claude Opus 4.7 是非常值得先测的候选。

Kimi K2.6

Kimi K2.6 的数字不宜与其他三者做严格同场排名，因为本文中的 Kimi 数据来自 Hugging Face 模型卡和 eval 文件，而不是综合表同一次运行。但作为代码方向候选，它的数据很有看点：模型卡列出 SWE-Bench Verified 80.2、SWE-Bench Pro 58.6、SWE-Bench Multilingual 76.7、Terminal-Bench 2.0 66.7、OSWorld-Verified 73.1 。

Kimi 的另一个实际价值在部署形态。来源显示 K2.6 权重可在 Hugging Face 获取，并支持通过 vLLM、SGLang 或 KTransformers 运行。这不等于它赢得了整张 benchmark 表，但对需要自托管、内部实验或更强部署控制的团队来说，Kimi K2.6 值得单独做 eval 。

DeepSeek V4

综合表中 DeepSeek 对应的是 DeepSeek-V4-Pro-Max 。在列出的行里，它没有拿到第一：GPQA Diamond 90.1%、HLE 无工具 37.7%、HLE 有工具 48.2%、Terminal-Bench 2.0 67.9%、SWE-Bench Pro / SWE Pro 55.4%、BrowseComp 83.4%、MCP Atlas / MCPAtlas Public 73.6% 。

DeepSeek V4 在这组资料里的优势不是绝对跑分，而是成本。Mashable 和 DataCamp 给出的 API 价格为每 100 万输入 token 1.74 美元、每 100 万输出 token 3.48 美元；对比之下，GPT-5.5 为 5/30 美元，Claude Opus 4.7 为 5/25 美元。如果预算是主要约束，DeepSeek V4 应该进入你的自有测试集，但不应仅凭这张表被称为 benchmark 领先者。

读这份比较时的四个限制

**没有覆盖四款模型所有项目的统一测试运行。**综合表覆盖 GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7 和 DeepSeek-V4-Pro-Max；Kimi K2.6 需要从 Hugging Face 和 eval 文件另行补入。
**DeepSeek V4 在不同来源中指向不同版本。**综合表是 DeepSeek-V4-Pro-Max，SWE-Bench Verified 的单独数字则是 DeepSeek V4-Pro 。
**GPT-5.5 Pro 并非每项都有数据。**综合表只在部分 benchmark 行列出 Pro，因此不能把它在有工具 HLE 或 BrowseComp 的优势自动外推到所有任务。
**Kimi K2.6 最好用自己的 eval 再验证。**Hugging Face 结果很有参考价值，但来源和测试设置并非与 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 完全同一张横评表。

最后怎么选

如果只看综合表中可比的行，Claude Opus 4.7 赢下 GPQA Diamond、HLE 无工具、SWE-Bench Pro 和 MCP Atlas；GPT-5.5 赢下 Terminal-Bench 2.0；GPT-5.5 Pro 赢下 HLE 有工具和 BrowseComp 。Kimi K2.6 是值得重点关注的代码与可用权重候选，但需要单独验证，不能直接判定为四方同场第一。DeepSeek V4 在这些 benchmark 行里不是冠军，却凭更低的公开 API 价格，适合放进对成本敏感场景的自有评测中。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

人们还问