报告已发布3个月前Last edited 2个月前18 来源

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6：按基准类别看谁更强

没有单一总冠军：Claude Opus 4.7 在 GPQA Diamond 和无工具 Humanity’s Last Exam 领先，GPT 5.5 在 Terminal Bench 2.0、OSWorld Verified 和 FrontierMath 领先，GPT 5.5 Pro 在工具辅助 HLE 与 BrowseComp 领先 [4][5]。 DeepSeek V4 Pro Max 在共享表中有竞争力但未拿下单项第一；它最突出的已引用卖点是 VentureBeat 所称接近前沿模型、成本约为 Opus 4.7 和 GPT 5.5 的六分之一 [4]。

使用 Studio Global AI 搜索并核查事实浏览更多热门页面

Editorial illustration of GPT-5.5, Claude Opus 4.7, DeepSeek V4 and Kimi K2.6 compared across AI benchmark categories — GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark Winners by CategoryAI-generated editorial illustration for comparing frontier model benchmark winners by category.
AI 提示
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark Winners by Category. Article summary: No single model wins across the available 2026 benchmark evidence: Claude Opus 4.7 leads GPQA Diamond at 94.2% and Humanity’s Last Exam without tools at 46.9%, GPT 5.5 leads Terminal Bench 2.0 at 82.7%, and GPT 5.5 Pr.... Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "Kimi K2.6 ties GPT-5.5 on SWE-bench Pro at 5–6x lower cost — with agent swarms, 13-hour autonomous runs, and open weights. In practice it is the first open-source model that can su" source context "Kimi K2.6: The Complete Developer Guide (2026) - Codersera" Reference image 2: visual subject "# Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7: Which S
openai.com

基准表很容易让人想找一个总冠军，但这组模型更适合按任务拆开看。最可比的一张共享表覆盖 GPT-5.5、部分 GPT-5.5 Pro、Claude Opus 4.7 和 DeepSeek-V4-Pro-Max；Kimi K2.6 的成绩主要出现在单独的 Kimi 对比中，所以它在每个类别上都不如前三者那样干净可比。

更务实的结论是：先选与你真实工作最像的基准，再把候选模型放到同一套提示词、工具、上下文长度、延迟目标和评分规则里复测。

先看结论：各类任务该优先测谁

任务类型	更有依据的优先选择	为什么
科学推理	Claude Opus 4.7	GPQA Diamond 为 94.2%，高于 GPT-5.5 的 93.6% 和 DeepSeek-V4-Pro-Max 的 90.1%
无工具专家推理	Claude Opus 4.7	Humanity’s Last Exam 无工具为 46.9%，高于 GPT-5.5 Pro 的 43.1%、GPT-5.5 的 41.4% 和 DeepSeek-V4-Pro-Max 的 37.7%
工具辅助考试推理	GPT-5.5 Pro	Humanity’s Last Exam 带工具为 57.2%，高于 Claude Opus 4.7 的 54.7%
终端与智能体计算	GPT-5.5	Terminal-Bench 2.0 为 82.7%，明显高于 Claude Opus 4.7 的 69.4% 和 DeepSeek-V4-Pro-Max 的 67.9%
操作系统环境任务	GPT-5.5	OSWorld-Verified 为 78.7%，略高于 Claude Opus 4.7 的 78.0%
前沿数学	GPT-5.5	FrontierMath Tiers 1–3 为 51.7%，高于 Claude Opus 4.7 的 43.8%
共享表中的软件工程	Claude Opus 4.7	SWE-Bench Pro / SWE Pro 为 64.3%，高于 GPT-5.5 的 58.6% 和 DeepSeek-V4-Pro-Max 的 55.4%
浏览与网页理解	GPT-5.5 Pro	BrowseComp 为 90.1%，高于 GPT-5.5 的 84.4%、DeepSeek-V4-Pro-Max 的 83.4% 和 Claude Opus 4.7 的 79.3%
MCP 式公共工具流程	Claude Opus 4.7	MCP Atlas / MCPAtlas Public 为 79.1%，高于 GPT-5.5 的 75.3% 和 DeepSeek-V4-Pro-Max 的 73.6%
视觉与文档分析	Claude Opus 4.7	有来源称其在 Vision & Document Arena 总榜第一，并在图表、作业和 OCR 子类中获胜
成本敏感场景	DeepSeek V4	VentureBeat 称其以约六分之一成本接近 Opus 4.7 和 GPT-5.5 的前沿智能水平，但仍应按自己的工作负载复核
最难做四方同台判断	Kimi K2.6	Kimi 有可参考分数，但引用证据多来自与 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 分开的比较

关键分数表

基准 / 能力	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek V4 / V4 Pro Max	Kimi K2.6	更稳妥的解读
GPQA Diamond	93.6%	未报告	94.2%	DeepSeek-V4-Pro-Max 为 90.1%	未报告	Claude 在共享表中领先
Humanity’s Last Exam，无工具	41.4%	43.1%	46.9%	DeepSeek-V4-Pro-Max 为 37.7%	未报告	Claude 在共享表中领先
Humanity’s Last Exam，带工具	52.2%	57.2%	54.7%	DeepSeek-V4-Pro-Max 为 48.2%	单独 Kimi 对比中为 54.0%	GPT-5.5 Pro 在共享表中领先
Terminal-Bench 2.0	82.7%	未报告	69.4%	DeepSeek-V4-Pro-Max 为 67.9%	单独 Kimi 对比中为 66.7%	GPT-5.5 领先
SWE-Bench Pro / SWE Pro	58.6%	未报告	64.3%	DeepSeek-V4-Pro-Max 为 55.4%	单独 Kimi 对比中为 58.6%	Claude 在共享表中领先
BrowseComp	84.4%	90.1%	79.3%	DeepSeek-V4-Pro-Max 为 83.4% ；另一份对比中 DeepSeek-V4 Pro 为 83.4%	Kimi vs DeepSeek 对比中为 83.2%	GPT-5.5 Pro 在共享表中领先
MCP Atlas / MCPAtlas Public	75.3%	未报告	79.1%	DeepSeek-V4-Pro-Max 为 73.6%	未报告	Claude 领先
OSWorld-Verified	78.7%	未报告	78.0%	未报告	未报告	GPT-5.5 小幅领先 Claude
FrontierMath Tiers 1–3	51.7%	未报告	43.8%	未报告	未报告	GPT-5.5 领先 Claude
Vision & Document Arena	未报告	未报告	报告称总榜第一	未报告	未报告	只有 Claude 有已引用结果
AIME 2026	未报告	未报告	未报告	Kimi vs DeepSeek 表中未列 DeepSeek 数值	Thinking mode 为 96.4%	是 Kimi 的有用信号，不是四方排名
APEX Agents	未报告	未报告	未报告	Kimi vs DeepSeek 表中未列 DeepSeek 数值	Thinking mode 为 27.9%	是 Kimi 的有用信号，不是四方排名
上下文窗口	未报告	未报告	一份 Artificial Analysis 对比中为 1,000k token	同一对比中 DeepSeek V4 Pro 为 1,000k token	未报告	该配置下 Claude 与 DeepSeek V4 Pro 持平

混合来源的行要格外小心。Kimi 在单独 Kimi 对比中的分数有参考价值，但不等同于与 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 在同一测试框架、同一设置下直接对跑。

GPT-5.5：终端、OS、数学和工具调用更抢眼

GPT-5.5 最清楚的领先项是 Terminal-Bench 2.0：82.7%，对比 Claude Opus 4.7 的 69.4% 和 DeepSeek-V4-Pro-Max 的 67.9% 。在这组已引用基准里，这是差距较大的胜出项之一。

在 OSWorld-Verified 上，GPT-5.5 也领先 Claude Opus 4.7，但优势很窄：78.7% 对 78.0% 。在 FrontierMath Tiers 1–3 上差距更明显，GPT-5.5 为 51.7%，Claude 为 43.8% 。

如果你的任务依赖工具或网页浏览，GPT-5.5 Pro 的位置更突出。它在 Humanity’s Last Exam 带工具版本中为 57.2%，领先 Claude Opus 4.7 的 54.7%、GPT-5.5 的 52.2% 和 DeepSeek-V4-Pro-Max 的 48.2% 。BrowseComp 上，GPT-5.5 Pro 为 90.1%，也高于 GPT-5.5 的 84.4%、DeepSeek-V4-Pro-Max 的 83.4% 和 Claude Opus 4.7 的 79.3% 。

但 GPT-5.5 并不是所有推理项都赢。GPQA Diamond 上，Claude Opus 4.7 以 94.2% 小幅高于 GPT-5.5 的 93.6% 。另有 GPT-5.5 指南列出 GPT-5.5 单模型的垂直领域成绩，包括 Harvey BigLaw Bench 91.7%、内部投行业务基准 88.5%、BixBench 80.5%，但这些不能算四方胜利，因为引用片段没有给出 Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 在同一基准上的对应成绩。

Claude Opus 4.7：无工具推理、软件工程和文档更稳

在主要共享表里，Claude Opus 4.7 的无工具推理画像最好。它在 GPQA Diamond 上为 94.2%，在 Humanity’s Last Exam 无工具版本上为 46.9% 。同一张表中，它还以 64.3% 领先 SWE-Bench Pro / SWE Pro，并以 79.1% 领先 MCP Atlas / MCPAtlas Public 。

Claude 在已引用数据中的短板主要是终端式操作。Terminal-Bench 2.0 上，GPT-5.5 以 82.7% 对 69.4% 领先 Claude 超过 13 个百分点；GPT-5.5 也在 OSWorld-Verified 和 FrontierMath Tiers 1–3 上领先 Claude 。

多模态和文档方面，Claude 的证据最强。有来源称 Claude Opus 4.7 在 Vision & Document Arena 排名第一，在 Document Arena 上比 Opus 4.6 提高 4 分，并赢得图表、作业和 OCR 子类别。不过，该来源没有给出 GPT-5.5、DeepSeek V4 或 Kimi K2.6 在同一 Arena 中的可比数值，所以这能支持 Claude 的文档优势，却不能构成完整四方多模态排名。

DeepSeek V4：竞争力不弱，核心卖点是成本性能

需要先区分名称。共享基准表写的是 DeepSeek-V4-Pro-Max；Artificial Analysis 的对比写的是 DeepSeek V4 Pro，并列出 1,000k token 上下文窗口。这些标签不应自动视为完全相同的模型配置。

在主要共享表中，DeepSeek-V4-Pro-Max 表现有竞争力，但没有拿下任一列第一。它在 GPQA Diamond 为 90.1%，Humanity’s Last Exam 无工具为 37.7%，带工具为 48.2%，Terminal-Bench 2.0 为 67.9%，SWE-Bench Pro / SWE Pro 为 55.4%，BrowseComp 为 83.4%，MCP Atlas / MCPAtlas Public 为 73.6% 。

DeepSeek 最明确的已引用优势是成本性能，而不是某个基准单项冠军。VentureBeat 称 DeepSeek V4 以约六分之一成本提供接近 Opus 4.7 和 GPT-5.5 的前沿智能水平。这意味着它很适合进入成本敏感场景的候选名单，但不意味着可以跳过自己的质量评测。

长上下文筛选方面，一份 Artificial Analysis 对比把 DeepSeek V4 Pro 和 Claude Opus 4.7 都列为 1,000k token 上下文窗口。这只能说明该对比配置下二者相同，不能外推到所有 DeepSeek 或 Claude 模式。

Kimi K2.6：分数值得看，但四方可比性最弱

Kimi K2.6 是这组里最难直接排名的模型，因为它没有出现在 GPT-5.5、Claude Opus 4.7 和 DeepSeek-V4-Pro-Max 的主要共享表中。一份 Kimi 相关对比给出 K2.6 的若干成绩：SWE-Bench Pro 58.6%、SWE-Bench Verified 80.2%、Terminal-Bench 2.0 66.7%、Humanity’s Last Exam 带工具 54.0%、LiveCodeBench v6 89.6% 。该来源称 K2.6 数字来自 Moonshot AI 官方模型卡，但比较对象主要是 Claude Opus 4.6 和 GPT-5.4，而不是本文这组精确四方阵容。

另一份 Kimi vs DeepSeek 对比显示，Kimi K2.6 在 Thinking mode 下 AIME 2026 为 96.4%、APEX Agents 为 27.9%，在带 Thinking mode 和上下文管理的 BrowseComp 上为 83.2% 。同一来源中，DeepSeek-V4 Pro 在 BrowseComp 上列为 83.4%，但 AIME 2026 和 APEX Agents 没有 DeepSeek 数值。

因此，Kimi K2.6 值得测试，尤其是编码、智能体、数学和浏览类工作负载；但现有引用材料不足以支持它与 GPT-5.5、Claude Opus 4.7 在同一基准套件上的干净总排名。

实际选型：先测哪一个？

如果任务重心是终端智能体、操作系统环境和 FrontierMath 式难题，先测 GPT-5.5；它在已引用的 Terminal-Bench 2.0、OSWorld-Verified 和 FrontierMath 结果中领先。
如果任务重心是工具增强推理或浏览，先测 GPT-5.5 Pro；它在共享表的 Humanity’s Last Exam 带工具版本和 BrowseComp 上领先。
如果任务重心是 GPQA 式科学推理、无工具专家问答、SWE-Bench Pro 式软件工程、MCP 式工作流或文档密集型多模态任务，先测 Claude Opus 4.7 。
如果主要约束是成本性能，且你有能力自己跑质量检查，先把 DeepSeek V4 纳入候选；已引用优势是接近前沿表现且成本约为 Opus 4.7 和 GPT-5.5 的六分之一。
如果你特别想验证 Kimi K2.6 的编码、智能体、数学和浏览分数，先测 Kimi，但务必用与其他模型相同的提示词、工具、上下文限制、延迟目标和评分规则。

读基准时最该注意的三件事

第一，这不是一个统一总榜。来源混用了 GPT-5.5、GPT-5.5 Pro、DeepSeek-V4-Pro-Max、DeepSeek V4 Pro、Claude Opus 4.7 和 Kimi K2.6 等不同版本或模式。

第二，一些结果是厂商报告或研究环境结果。OpenAI 对其 GPT 评测也提示，ARC 相关评测使用了 reasoning effort 设为「xhigh」的研究环境，某些情况下可能与生产版 ChatGPT 输出略有不同。

第三，小差距只能当方向参考。Claude 在 GPQA Diamond 上领先 GPT-5.5 0.6 个百分点，GPT-5.5 在 OSWorld-Verified 上领先 Claude 0.7 个百分点。更大的差距更有操作意义，例如 GPT-5.5 在 Terminal-Bench 2.0 上领先 Claude 超过 13 个百分点，在 FrontierMath 上领先 Claude 7.9 个百分点。

一句话总结：GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 之间没有放之四海而皆准的赢家。把基准类别映射到你的真实工作，再用你能实际部署的模型做同场复测，才是更可靠的选择方式。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

人们还问