studioglobal
热门发现
报告已发布5 来源

GPT-5.5、Claude Opus 4.7、DeepSeek V4 与 Kimi K2.6:公开基准测试怎么读

最稳妥结论:四者可直接横向对齐的公开项目主要是 Terminal Bench 2.0,GPT 5.5 以 82.7% 排第一;但资料来自不同厂商表,不能合成为绝对总榜。[29][30][6] OpenAI 的表显示 GPT 5.5 在列出的项目上高于 Claude Opus 4.7;DeepSeek 模型卡显示 DS V4 Pro Max 在多数列项上高于 Kimi K2.6 Thinking,但 Kimi 在 GPQA Diamond 和 SWE Pro 上领先。[29][6] 产品选型应把共享基准、厂商表内比较和同条件业务复测分开看,尤其要复测工具权限、上下文、推理预算、延迟和成本。

17K0
GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试对比示意图
GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比:哪些结论站得住AI 生成插图:多模型基准测试对比场景。
AI 提示

Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比:哪些结论站得住. Article summary: 最稳妥的读法是:目前四者能较清楚横向对齐的是 Terminal Bench 2.0,GPT 5.5 以 82.7% 领先;但公开分数来自不同厂商表,不能直接合成为绝对总排名。[29][30][6]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "核心结论:2026年5月的AI模型排行榜呈现"三足鼎立"格局:GPT-5.5领跑Agentic工作流(Terminal-Bench 82.7%),Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜:GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Reference image 2: visual subject "核心结论:2026年5月的AI模型排行榜呈现"三足鼎立"格局:GPT-5.5领跑Agentic工作流(Terminal-Bench 82.7%),Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜:GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail,

openai.com

公开基准测试可以帮助你快速缩小模型候选,但这四个名字不能直接被拼成一个“总分榜”。目前可引用资料分别来自 OpenAI 的 GPT-5.5 发布页和系统卡、Anthropic 的 Claude Opus 4.7 API 文档,以及 DeepSeek V4-Pro 模型卡;它们不是同一第三方、同一版本、同一评测配置下的完整四方同场测试。[29][27][13][6]

先统一版本口径

本文把 DeepSeek V4 限定为 DeepSeek 模型卡中的 DS-V4-Pro Max,把 Kimi K2.6 限定为 K2.6 Thinking;这两个名称是 DeepSeek 表格里可直接引用的列名。[6]

这一点很关键:DeepSeek 模型卡里的 GPT 和 Claude 列分别是 GPT-5.4 xHighOpus-4.6 Max,不是本文要比较的 GPT-5.5 与 Claude Opus 4.7。[6] 因此,不能用 DeepSeek 那张表直接判断 DeepSeek V4-Pro Max 相对 GPT-5.5 或 Claude Opus 4.7 的完整胜负。

Anthropic 的 Claude Opus 4.7 公开 API 文档主要说明功能与调用方式,例如

task budgets
beta,而不是一张可与 OpenAI、DeepSeek、Kimi 直接合并的四方 benchmark 总表。[13]

最稳的横向交集:Terminal-Bench 2.0

在本文可引用资料中,四个目标模型都能找到分数的共享项目是 Terminal-Bench 2.0。按这些公开表格,排序如下:

模型Terminal-Bench 2.0来源
GPT-5.582.7%OpenAI 发布页及 MLQ.ai 摘要 [29][30]
Claude Opus 4.769.4%OpenAI 发布页 [29]
DeepSeek V4-Pro Max67.9%DeepSeek V4-Pro 模型卡 [6]
Kimi K2.6 Thinking66.7%DeepSeek V4-Pro 模型卡 [6]

这能支持的结论很窄但有用:在 Terminal-Bench 2.0 这一项上,GPT-5.5 明显领先,Claude Opus 4.7 排第二,DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking 接近。[29][30][6] 它不能自动推出 GPT-5.5 在所有业务场景中都领先,也不能替代同一评测框架、同一工具权限、同一上下文长度和同一推理预算下的复测。

GPT-5.5 与 Claude Opus 4.7:OpenAI 表内对比

OpenAI 发布页给出了 GPT-5.5 与 Claude Opus 4.7 的多项 benchmark 对比;在这些列出的项目上,GPT-5.5 的分数均高于 Claude Opus 4.7。[29]

Benchmark(OpenAI 表)GPT-5.5Claude Opus 4.7
Terminal-Bench 2.082.7%69.4%
GDPval wins or ties84.9%80.3%
BrowseComp84.4%79.3%
FrontierMath Tier 1–351.7%43.8%
FrontierMath Tier 435.4%22.9%
CyberGym81.8%73.1%

这组数据适合支持一个有限结论:在 OpenAI 列出的这些项目里,GPT-5.5 强于 Claude Opus 4.7。[29] OpenAI 的系统卡也把 GPT-5.5 定位为面向复杂真实工作的模型,包括写代码、在线研究、分析信息、创建文档和表格,以及跨工具完成任务等场景。[27]

但它仍然是 OpenAI 发布页中的对比表,不等于独立第三方对四个目标模型进行的统一 harness 测试。[29]

DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking:DeepSeek 表内对比

DeepSeek V4-Pro 模型卡提供了 DS-V4-Pro Max 与 K2.6 Thinking 的多项表内对比。[6] 在这张表里,DeepSeek V4-Pro Max 在多数列项上高于 Kimi K2.6 Thinking,但 Kimi 也有明确领先项。[6]

Benchmark(DeepSeek 模型卡)DeepSeek V4-Pro MaxKimi K2.6 Thinking表内领先
MMLU-Pro87.587.1DeepSeek
SimpleQA-Verified57.936.9DeepSeek
Chinese-SimpleQA84.475.9DeepSeek
GPQA Diamond90.190.5Kimi
HLE37.736.4DeepSeek
LiveCodeBench93.589.6DeepSeek
HMMT 2026 Feb95.292.7DeepSeek
IMOAnswerBench89.886.0DeepSeek
Apex Shortlist90.275.5DeepSeek
SWE Pro55.458.6Kimi
Terminal-Bench 2.067.966.7DeepSeek

这组数据的稳妥读法是:在 DeepSeek 模型卡列出的多数项目上,DS-V4-Pro Max 高于 K2.6 Thinking;但 Kimi K2.6 Thinking 在 GPQA Diamond 和 SWE Pro 上领先。[6] 其中 MMLU-Pro 与 Terminal-Bench 2.0 的差距较小,产品决策时不应只看领先方向,还应看任务类型和误差空间。

为什么不能直接给四方绝对总排名

最容易出错的做法,是把 OpenAI 表、DeepSeek 表和 Anthropic 功能文档里的信息直接合并,然后算出一个“总冠军”。目前公开资料不支持这样做,原因有三点:

  1. 版本不一致。 OpenAI 表比较的是 GPT-5.5 与 Claude Opus 4.7;DeepSeek 表中的 GPT 和 Claude 列却是 GPT-5.4 xHigh 与 Opus-4.6 Max。[29][6]
  2. 来源不一致。 现有资料分别来自厂商发布页、系统卡、API 文档和模型卡,并非同一第三方评测框架下的完整四方复测。[29][27][13][6]
  3. 指标不等价。 GDPval、BrowseComp、FrontierMath、CyberGym、MMLU-Pro、GPQA Diamond、SWE Pro 等项目衡量的能力不同;没有明确权重时,把它们相加成一个总分会掩盖真实任务差异。[29][6]

所以,公开 benchmark 更适合作为第一层筛选,而不是最终采购或架构选择的唯一依据。

产品选型应该怎么用这些分数

更实用的做法是分三层看:

  • 共享 benchmark 层。 目前最清楚的四方交集是 Terminal-Bench 2.0;在这一项上,GPT-5.5 领先。[29][30][6]
  • 厂商表内部对比层。 OpenAI 表支持 GPT-5.5 在列出项目上高于 Claude Opus 4.7;DeepSeek 模型卡支持 DS-V4-Pro Max 在多数列项上高于 K2.6 Thinking。[29][6]
  • 业务复测层。 把你的真实任务拆成 coding、agent、reasoning、retrieval、tool use、latency、cost 等维度,在同一提示词、同一上下文、同一工具权限和同一评测规则下复测。

如果产品依赖较长的代理循环,Claude Opus 4.7 的

task budgets
值得单独测试:Anthropic 文档称它会给完整 agentic loop 提供粗略 token 目标,包括 thinking、tool calls、tool results 和 final output,并让模型看到预算倒计时以安排工作。[13]

如果产品更接近复杂编码、在线研究、文档或表格生成、跨工具工作,GPT-5.5 的系统卡描述与这些任务更直接相关。[27] 但即使某个模型在公开表上领先,也仍需要放进你的代码库、工具链、权限边界和失败恢复规则中复测。

最稳妥的排名说法

  • Terminal-Bench 2.0 单项: GPT-5.5 第一,Claude Opus 4.7 第二,DeepSeek V4-Pro Max 第三,Kimi K2.6 Thinking 第四。[29][30][6]
  • OpenAI 表内部: GPT-5.5 在列出的项目上高于 Claude Opus 4.7。[29]
  • DeepSeek 表内部: DS-V4-Pro Max 在多数列项上高于 Kimi K2.6 Thinking,但 Kimi 在 GPQA Diamond 和 SWE Pro 上领先。[6]
  • 四方绝对总排名: 证据不足。公开资料还没有提供同一第三方、同一版本、同一评测条件下的完整四方对测。[29][13][6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

  • 最稳妥结论:四者可直接横向对齐的公开项目主要是 Terminal Bench 2.0,GPT 5.5 以 82.7% 排第一;但资料来自不同厂商表,不能合成为绝对总榜。[29][30][6]
  • OpenAI 的表显示 GPT 5.5 在列出的项目上高于 Claude Opus 4.7;DeepSeek 模型卡显示 DS V4 Pro Max 在多数列项上高于 Kimi K2.6 Thinking,但 Kimi 在 GPQA Diamond 和 SWE Pro 上领先。[29][6]
  • 产品选型应把共享基准、厂商表内比较和同条件业务复测分开看,尤其要复测工具权限、上下文、推理预算、延迟和成本。

人们还问

“GPT-5.5、Claude Opus 4.7、DeepSeek V4 与 Kimi K2.6:公开基准测试怎么读”的简短答案是什么?

最稳妥结论:四者可直接横向对齐的公开项目主要是 Terminal Bench 2.0,GPT 5.5 以 82.7% 排第一;但资料来自不同厂商表,不能合成为绝对总榜。[29][30][6]

首先要验证的关键点是什么?

最稳妥结论:四者可直接横向对齐的公开项目主要是 Terminal Bench 2.0,GPT 5.5 以 82.7% 排第一;但资料来自不同厂商表,不能合成为绝对总榜。[29][30][6] OpenAI 的表显示 GPT 5.5 在列出的项目上高于 Claude Opus 4.7;DeepSeek 模型卡显示 DS V4 Pro Max 在多数列项上高于 Kimi K2.6 Thinking,但 Kimi 在 GPQA Diamond 和 SWE Pro 上领先。[29][6]

接下来在实践中我应该做什么?

产品选型应把共享基准、厂商表内比较和同条件业务复测分开看,尤其要复测工具权限、上下文、推理预算、延迟和成本。

接下来我应该探索哪个相关主题?

继续“Claude Opus 4.7、GPT-5.5、DeepSeek V4 与 Kimi K2.6:2026 基准对比与选型结论”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较?

对照“DeepSeek V4 工程解析:1M 上下文、MoE 与 API 迁移要点”交叉检查此答案。

打开相关页面

继续你的研究

研究对话

研究问题

我想研究并比较 GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试表现。

Studio Global AI40 来源

引用的答案

可以,但要分开看。就我目前核实到的公开数字,四家里能直接横向对齐的共享基准其实很少;最清楚的一项是 Terminal-Bench 2.0:GPT-5.5 为 82.7%,Claude Opus 4.7 为 69.4%,DeepSeek V4-Pro Max 为 67.9%,Kimi K2.6 Thinking 为 66.7%。[5][12] 这些数字主要来自 OpenAI 的 GPT-5.5 发布页和 DeepSeek V4-Pro 模型卡中的厂商对比表,所以可以做“有保留的比较”,但不足以稳妥给出一个统一总排名。[5][12]

Key findings

可直接对齐的共享基准GPT-5.5Claude Opus 4.7DeepSeek V4-Pro MaxKimi K2.6 Thinking
Terminal-Bench 2.0 [5][12]82.7%69.4%67.9%66.7%
  • 在 OpenAI 官方对比表中,凡是同时给出 GPT-5.5 和 Claude Opus 4.7 分数的项目,GPT-5.5 都更高,包括 Terminal-Bench 2.0(82.7% vs 69.4%)、GDPval wins or ties(84.9% vs 80.3%)、BrowseComp(84.4% vs 79.3%)、FrontierMath Tier 1–3(51.7% vs 43.8%)、FrontierMath Tier 4(35.4% vs 22.9%)和 CyberGym(81.8% vs 73.1%)。[5]

  • 在 DeepSeek 官方模型卡的对比表中,DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking 在多数已列项目上更高,包括 MMLU-Pro(87.5 vs 87.1)、SimpleQA-Verified(57.9 vs 36.9)、LiveCodeBench(93.5 vs 89.6)、HMMT 2026 Feb(95.2 vs 92.7)、IMOAnswerBench(89.8 vs 86.0)、Apex Shortlist(90.2 vs 75.5)以及 Terminal-Bench 2.0(67.9 vs 66.7)。[12]

  • 同一张 DeepSeek 对比表里,Kimi K2.6 Thinking 也有少数领先项,例如 GPQA Diamond(90.5 vs 90.1)和 SWE Pro(58.6 vs 55.4)。[12]

  • Anthropic 我目前能直接核实到的官方 Opus 4.7 页面,重点是功能和规格更新:Claude Opus 4.7 被描述为其“最强的通用可用模型”,支持 1M token 上下文、128k 最大输出,以及自适应 thinking 和 task budgets 等能力。[1] 但在我抓取到的官方页面内容里,没有像 OpenAI 或 DeepSeek 那样展开一张完整、可直接引用的 benchmark 总表。[1]

Evidence notes

  • 这次比较最好拆成两层:

    1. 共享 benchmark 的直接对比,目前最可靠的是 Terminal-Bench 2.0。[5][12]
    2. 厂商自报表里的组内对比,比如 GPT-5.5 vs Claude Opus 4.7,或 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking。[5][12]
  • OpenAI 的表比较的是 GPT-5.5 与 Claude Opus 4.7、Gemini 3.1 Pro 等模型。[5]
    DeepSeek 的表比较的是 DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking、GPT-5.4 xHigh、Claude Opus 4.6 Max、Gemini 3.1 Pro High 等模型。[12]

  • 因此,除了像 Terminal-Bench 2.0 这种真正共享的基准外,其他分数不适合被简单拼成一个“总分榜”。这是方法上的判断,不是某一家模型一定更强的确定性结论。

Limitations / uncertainty

  • 我目前核实到的高权威公开数字,主要集中在 OpenAI 的 GPT-5.5 发布页、Anthropic 的 Opus 4.7 功能页,以及 DeepSeek 的 V4-Pro 模型卡。[1][5][12]

  • 最大限制是:这些表并不是同一第三方、同一 harness、同一工具权限、同一 reasoning effort 下的完整四方对测。[5][12]

  • 尤其是 GPT-5.5 / Claude Opus 4.7 的官方表,与 DeepSeek V4 / Kimi K2.6 的官方表,不共用同一组对手版本;前者是 GPT-5.5 对 Opus 4.7,后者是 DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking、GPT-5.4 xHigh、Opus 4.6 Max。[5][12]

  • 所以如果问题是“谁是四者里的绝对 benchmark 第一”,目前公开证据仍然是:Insufficient evidence.

Summary

  • 如果你只看当前可直接对齐的共享公开基准,GPT-5.5 在这四个里最强,至少在 Terminal-Bench 2.0 上明显领先。[5][12]

  • 如果你只看 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking,DeepSeek 在其官方表列出的多数项目上占优,但 Kimi 在 GPQA Diamond 和 SWE Pro 上有亮点。[12]

  • Claude Opus 4.7,目前能较有把握地说:在 OpenAI 官方表里,它落后于 GPT-5.5;但缺少与 DeepSeek V4 和 Kimi K2.6 的同版、同条件、完整第三方对照,因此不宜直接下四方统一总排名。[5]

如果你愿意,我下一步可以直接帮你整理成一张更实用的对比表,按 Coding / Agent / Reasoning / Vision 四个维度分开排,并把“共享 benchmark”和“厂商自报 benchmark”明确分栏。

来源

  • [6] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co

    Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...

  • [13] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com

    Task budgets (beta) Claude Opus 4.7 introduces task budgets. A task budget gives Claude a rough estimate of how many tokens to target for a full agentic loop, including thinking, tool calls, tool results, and final output. The model sees a running countdown...

  • [27] GPT-5.5 System Card - OpenAIopenai.com

    GPT-5.5 System Card OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Try ChatGPT(opens in a new window)Login OpenAI April 23, 2026 SafetyPublication GPT‑5.5...

  • [29] Introducing GPT-5.5openai.com

    Introducing GPT-5.5 OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Introducing GPT-5.5 OpenAI Table of contents Model capabilities Next-generation inferenc...

  • [30] OpenAI Launches GPT-5.5 as Its Most Advanced AI Model Yet - MLQ.aimlq.ai

    Key Points OpenAI launched GPT-5.5 on April 24, 2026, highlighting improvements in agentic coding, computer use, knowledge tasks and scientific research. The model scores 82.7% on Terminal-Bench 2.0 and 73.1% on Expert-SWE benchmarks14. Available now to Plu...