studioglobal
熱門發現
報告已發布5 來源

公開 benchmark 點樣讀:GPT-5.5、Claude Opus 4.7、DeepSeek V4 同 Kimi K2.6

現有公開資料入面,四個模型較穩可同場對齊嘅主要係 Terminal Bench 2.0:GPT 5.5 82.7%、Claude Opus 4.7 69.4%、DeepSeek V4 Pro Max 67.9%、Kimi K2.6 Thinking 66.7%。[29][30][6] OpenAI 表內 GPT 5.5 在列出項目高於 Claude Opus 4.7;DeepSeek 模型卡內 DS V4 Pro Max 多數項目高於 Kimi K2.6 Thinking,但 Kimi 在 GPQA Diamond、SWE Pro 反超。[29][6] 唔建議把不同廠商表直接加總;採購或上線前應用同一提示、工具權限、conte...

17K0
GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试对比示意图
GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比:哪些结论站得住AI 生成插图:多模型基准测试对比场景。
AI 提示

Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比:哪些结论站得住. Article summary: 最稳妥的读法是:目前四者能较清楚横向对齐的是 Terminal Bench 2.0,GPT 5.5 以 82.7% 领先;但公开分数来自不同厂商表,不能直接合成为绝对总排名。[29][30][6]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "核心结论:2026年5月的AI模型排行榜呈现"三足鼎立"格局:GPT-5.5领跑Agentic工作流(Terminal-Bench 82.7%),Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜:GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Reference image 2: visual subject "核心结论:2026年5月的AI模型排行榜呈现"三足鼎立"格局:GPT-5.5领跑Agentic工作流(Terminal-Bench 82.7%),Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜:GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail,

openai.com

公開 benchmark 可以令你快啲縮窄模型名單,但唔好急住將四個名拼成一張「總分榜」。就目前可引用資料,來源分別係 OpenAI 的 GPT-5.5 發布頁同系統卡、Anthropic 的 Claude Opus 4.7 API 文件,以及 DeepSeek V4-Pro 模型卡;佢哋並唔係同一個第三方、同一版本、同一套測試設定下做嘅完整四方同場測試。[29][27][13][6]

換句話講,公開分數有參考價值,但如果你係為產品、採購或者架構選型做決定,應該把它當成第一輪篩選,而唔係最後判決。

先講清楚:本文比較邊個版本

本文把 DeepSeek V4 限定為 DeepSeek 模型卡入面嘅 DS-V4-Pro Max,把 Kimi K2.6 限定為 K2.6 Thinking;呢兩個係 DeepSeek 表格可以直接引用嘅欄名。[6]

呢點好重要:DeepSeek 模型卡入面嘅 GPT 同 Claude 欄,分別係 GPT-5.4 xHighOpus-4.6 Max,唔係本文要比較嘅 GPT-5.5 同 Claude Opus 4.7。[6] 所以,唔可以直接用 DeepSeek 嗰張表去判斷 DeepSeek V4-Pro Max 對 GPT-5.5 或 Claude Opus 4.7 嘅完整勝負。

Anthropic 公開嘅 Claude Opus 4.7 API 文件,重點係功能同調用方式,例如

task budgets
beta;佢唔係一張可以同 OpenAI、DeepSeek、Kimi 直接合併嘅四方 benchmark 總表。[13]

最硬淨嘅四方交集:Terminal-Bench 2.0

喺本文可引用資料入面,四個目標模型都有公開分數、而又比較容易擺埋一齊睇嘅項目,是 Terminal-Bench 2.0。按現有公開表格,排序如下:

模型Terminal-Bench 2.0來源
GPT-5.582.7%OpenAI 發布頁及 MLQ.ai 摘要 [29][30]
Claude Opus 4.769.4%OpenAI 發布頁 [29]
DeepSeek V4-Pro Max67.9%DeepSeek V4-Pro 模型卡 [6]
Kimi K2.6 Thinking66.7%DeepSeek V4-Pro 模型卡 [6]

呢個比較可以支持一個窄但有用嘅結論:只睇 Terminal-Bench 2.0,GPT-5.5 明顯領先,Claude Opus 4.7 排第二,DeepSeek V4-Pro Max 同 Kimi K2.6 Thinking 接近。[29][30][6]

但呢個結論唔應該被放大成「GPT-5.5 在所有場景都贏」。Terminal-Bench 2.0 只係一項測試;真正上線時,工具權限、上下文長度、推理預算、提示詞、重試策略同成本限制,都可能改變結果。

OpenAI 表內:GPT-5.5 對 Claude Opus 4.7

OpenAI 發布頁列出 GPT-5.5 同 Claude Opus 4.7 多項 benchmark 對比;喺表內列出嘅項目,GPT-5.5 分數都高過 Claude Opus 4.7。[29]

Benchmark(OpenAI 表)GPT-5.5Claude Opus 4.7
Terminal-Bench 2.082.7%69.4%
GDPval wins or ties84.9%80.3%
BrowseComp84.4%79.3%
FrontierMath Tier 1–351.7%43.8%
FrontierMath Tier 435.4%22.9%
CyberGym81.8%73.1%

穩陣講法係:喺 OpenAI 列出嘅呢幾項入面,GPT-5.5 高於 Claude Opus 4.7。[29] OpenAI 系統卡亦將 GPT-5.5 描述為面向複雜真實工作的模型,包括寫 code、網上研究、分析資料、建立文件同試算表,以及跨工具完成任務等場景。[27]

不過,呢組仍然係 OpenAI 發布頁中嘅對比表,唔等於獨立第三方用同一套 harness 對四個目標模型做嘅統一復測。[29]

DeepSeek 表內:DS-V4-Pro Max 對 Kimi K2.6 Thinking

DeepSeek V4-Pro 模型卡提供咗 DS-V4-Pro Max 同 K2.6 Thinking 多項表內對比。[6] 呢張表入面,DS-V4-Pro Max 喺多數項目高過 Kimi K2.6 Thinking;但 Kimi 亦有明確領先嘅項目。[6]

Benchmark(DeepSeek 模型卡)DeepSeek V4-Pro MaxKimi K2.6 Thinking表內領先
MMLU-Pro87.587.1DeepSeek
SimpleQA-Verified57.936.9DeepSeek
Chinese-SimpleQA84.475.9DeepSeek
GPQA Diamond90.190.5Kimi
HLE37.736.4DeepSeek
LiveCodeBench93.589.6DeepSeek
HMMT 2026 Feb95.292.7DeepSeek
IMOAnswerBench89.886.0DeepSeek
Apex Shortlist90.275.5DeepSeek
SWE Pro55.458.6Kimi
Terminal-Bench 2.067.966.7DeepSeek

所以較安全嘅讀法係:在 DeepSeek 模型卡列出嘅多數項目上,DS-V4-Pro Max 高於 K2.6 Thinking;但 Kimi K2.6 Thinking 在 GPQA Diamond 同 SWE Pro 上領先。[6] 另外,MMLU-Pro 同 Terminal-Bench 2.0 嘅差距都唔算大,做產品決策時唔好只睇箭嘴向邊,仲要睇任務類型、樣本穩定性同你自己嘅容錯空間。

點解唔可以直接排四方總榜

最常見嘅錯誤,是將 OpenAI 表、DeepSeek 表同 Anthropic 功能文件硬合併,然後計出一個「總冠軍」。目前公開資料唔支持咁做,主要有三個原因:

  1. 版本唔一致。 OpenAI 表比較 GPT-5.5 同 Claude Opus 4.7;DeepSeek 表入面嘅 GPT 同 Claude 欄卻係 GPT-5.4 xHigh 同 Opus-4.6 Max。[29][6]
  2. 來源唔一致。 現有資料來自廠商發布頁、系統卡、API 文件同模型卡,唔係同一個第三方評測框架下嘅完整四方復測。[29][27][13][6]
  3. 指標唔等價。 GDPval、BrowseComp、FrontierMath、CyberGym、MMLU-Pro、GPQA Diamond、SWE Pro 等項目量度嘅能力唔同;如果冇清楚權重,直接加總會掩蓋真實任務差異。[29][6]

因此,公開 benchmark 最適合用來做第一層篩選,而唔係產品採購、模型路由或架構選型嘅唯一依據。

真正揀模型時,應該點用呢啲分數

比較實際嘅做法,是分三層睇:

  • 共享 benchmark 層。 目前最清楚嘅四方交集係 Terminal-Bench 2.0;喺呢一項,GPT-5.5 領先。[29][30][6]
  • 廠商表內比較層。 OpenAI 表支持 GPT-5.5 在列出項目高於 Claude Opus 4.7;DeepSeek 模型卡支持 DS-V4-Pro Max 在多數列項高於 K2.6 Thinking。[29][6]
  • 業務復測層。 將你真正要做嘅任務拆成 coding、agent、reasoning、retrieval、tool use、latency、cost 等維度,用同一提示詞、同一上下文、同一工具權限同同一評分規則重測。

如果你嘅產品依賴較長嘅 agent loop,Claude Opus 4.7 嘅

task budgets
值得單獨測試:Anthropic 文件指,呢個功能會為完整 agentic loop 提供粗略 token 目標,涵蓋 thinking、tool calls、tool results 同 final output,並讓模型看到預算倒數,方便分配工作同收尾。[13]

如果你嘅場景更接近複雜 coding、網上 research、文件或試算表生成、跨工具工作,GPT-5.5 系統卡描述嘅定位同呢類任務較直接相關。[27] 但即使某模型公開表分數較高,都應該放入你自己嘅 codebase、工具鏈、權限邊界、失敗復原規則同成本限制入面再試。

最穩妥嘅排名講法

  • Terminal-Bench 2.0 單項: GPT-5.5 第一,Claude Opus 4.7 第二,DeepSeek V4-Pro Max 第三,Kimi K2.6 Thinking 第四。[29][30][6]
  • OpenAI 表內: GPT-5.5 在列出項目高於 Claude Opus 4.7。[29]
  • DeepSeek 表內: DS-V4-Pro Max 在多數列項高於 Kimi K2.6 Thinking,但 Kimi 在 GPQA Diamond 同 SWE Pro 領先。[6]
  • 四方絕對總排名: 證據不足。公開資料未有提供同一第三方、同一版本、同一測試條件下嘅完整四方對測。[29][13][6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

  • 現有公開資料入面,四個模型較穩可同場對齊嘅主要係 Terminal Bench 2.0:GPT 5.5 82.7%、Claude Opus 4.7 69.4%、DeepSeek V4 Pro Max 67.9%、Kimi K2.6 Thinking 66.7%。[29][30][6]
  • OpenAI 表內 GPT 5.5 在列出項目高於 Claude Opus 4.7;DeepSeek 模型卡內 DS V4 Pro Max 多數項目高於 Kimi K2.6 Thinking,但 Kimi 在 GPQA Diamond、SWE Pro 反超。[29][6]
  • 唔建議把不同廠商表直接加總;採購或上線前應用同一提示、工具權限、context、推理預算、延遲與成本設定做業務復測。

人們還問

「公開 benchmark 點樣讀:GPT-5.5、Claude Opus 4.7、DeepSeek V4 同 Kimi K2.6」的簡短答案是什麼?

現有公開資料入面,四個模型較穩可同場對齊嘅主要係 Terminal Bench 2.0:GPT 5.5 82.7%、Claude Opus 4.7 69.4%、DeepSeek V4 Pro Max 67.9%、Kimi K2.6 Thinking 66.7%。[29][30][6]

首先要驗證的關鍵點是什麼?

現有公開資料入面,四個模型較穩可同場對齊嘅主要係 Terminal Bench 2.0:GPT 5.5 82.7%、Claude Opus 4.7 69.4%、DeepSeek V4 Pro Max 67.9%、Kimi K2.6 Thinking 66.7%。[29][30][6] OpenAI 表內 GPT 5.5 在列出項目高於 Claude Opus 4.7;DeepSeek 模型卡內 DS V4 Pro Max 多數項目高於 Kimi K2.6 Thinking,但 Kimi 在 GPQA Diamond、SWE Pro 反超。[29][6]

接下來在實務上我該做什麼?

唔建議把不同廠商表直接加總;採購或上線前應用同一提示、工具權限、context、推理預算、延遲與成本設定做業務復測。

接下來我應該探索哪個相關主題?

繼續“Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6:2026 Benchmark 點睇先唔會睇錯”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較?

對照「DeepSeek V4 唔止 1M context:MoE、長上下文同 API 遷移重點」交叉檢查此答案。

開啟相關頁面

繼續你的研究

研究對話

研究問題

我想研究并比较 GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试表现。

Studio Global AI40 來源

引用的答案

可以,但要分开看。就我目前核实到的公开数字,四家里能直接横向对齐的共享基准其实很少;最清楚的一项是 Terminal-Bench 2.0:GPT-5.5 为 82.7%,Claude Opus 4.7 为 69.4%,DeepSeek V4-Pro Max 为 67.9%,Kimi K2.6 Thinking 为 66.7%。[5][12] 这些数字主要来自 OpenAI 的 GPT-5.5 发布页和 DeepSeek V4-Pro 模型卡中的厂商对比表,所以可以做“有保留的比较”,但不足以稳妥给出一个统一总排名。[5][12]

Key findings

可直接对齐的共享基准GPT-5.5Claude Opus 4.7DeepSeek V4-Pro MaxKimi K2.6 Thinking
Terminal-Bench 2.0 [5][12]82.7%69.4%67.9%66.7%
  • 在 OpenAI 官方对比表中,凡是同时给出 GPT-5.5 和 Claude Opus 4.7 分数的项目,GPT-5.5 都更高,包括 Terminal-Bench 2.0(82.7% vs 69.4%)、GDPval wins or ties(84.9% vs 80.3%)、BrowseComp(84.4% vs 79.3%)、FrontierMath Tier 1–3(51.7% vs 43.8%)、FrontierMath Tier 4(35.4% vs 22.9%)和 CyberGym(81.8% vs 73.1%)。[5]

  • 在 DeepSeek 官方模型卡的对比表中,DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking 在多数已列项目上更高,包括 MMLU-Pro(87.5 vs 87.1)、SimpleQA-Verified(57.9 vs 36.9)、LiveCodeBench(93.5 vs 89.6)、HMMT 2026 Feb(95.2 vs 92.7)、IMOAnswerBench(89.8 vs 86.0)、Apex Shortlist(90.2 vs 75.5)以及 Terminal-Bench 2.0(67.9 vs 66.7)。[12]

  • 同一张 DeepSeek 对比表里,Kimi K2.6 Thinking 也有少数领先项,例如 GPQA Diamond(90.5 vs 90.1)和 SWE Pro(58.6 vs 55.4)。[12]

  • Anthropic 我目前能直接核实到的官方 Opus 4.7 页面,重点是功能和规格更新:Claude Opus 4.7 被描述为其“最强的通用可用模型”,支持 1M token 上下文、128k 最大输出,以及自适应 thinking 和 task budgets 等能力。[1] 但在我抓取到的官方页面内容里,没有像 OpenAI 或 DeepSeek 那样展开一张完整、可直接引用的 benchmark 总表。[1]

Evidence notes

  • 这次比较最好拆成两层:

    1. 共享 benchmark 的直接对比,目前最可靠的是 Terminal-Bench 2.0。[5][12]
    2. 厂商自报表里的组内对比,比如 GPT-5.5 vs Claude Opus 4.7,或 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking。[5][12]
  • OpenAI 的表比较的是 GPT-5.5 与 Claude Opus 4.7、Gemini 3.1 Pro 等模型。[5]
    DeepSeek 的表比较的是 DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking、GPT-5.4 xHigh、Claude Opus 4.6 Max、Gemini 3.1 Pro High 等模型。[12]

  • 因此,除了像 Terminal-Bench 2.0 这种真正共享的基准外,其他分数不适合被简单拼成一个“总分榜”。这是方法上的判断,不是某一家模型一定更强的确定性结论。

Limitations / uncertainty

  • 我目前核实到的高权威公开数字,主要集中在 OpenAI 的 GPT-5.5 发布页、Anthropic 的 Opus 4.7 功能页,以及 DeepSeek 的 V4-Pro 模型卡。[1][5][12]

  • 最大限制是:这些表并不是同一第三方、同一 harness、同一工具权限、同一 reasoning effort 下的完整四方对测。[5][12]

  • 尤其是 GPT-5.5 / Claude Opus 4.7 的官方表,与 DeepSeek V4 / Kimi K2.6 的官方表,不共用同一组对手版本;前者是 GPT-5.5 对 Opus 4.7,后者是 DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking、GPT-5.4 xHigh、Opus 4.6 Max。[5][12]

  • 所以如果问题是“谁是四者里的绝对 benchmark 第一”,目前公开证据仍然是:Insufficient evidence.

Summary

  • 如果你只看当前可直接对齐的共享公开基准,GPT-5.5 在这四个里最强,至少在 Terminal-Bench 2.0 上明显领先。[5][12]

  • 如果你只看 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking,DeepSeek 在其官方表列出的多数项目上占优,但 Kimi 在 GPQA Diamond 和 SWE Pro 上有亮点。[12]

  • Claude Opus 4.7,目前能较有把握地说:在 OpenAI 官方表里,它落后于 GPT-5.5;但缺少与 DeepSeek V4 和 Kimi K2.6 的同版、同条件、完整第三方对照,因此不宜直接下四方统一总排名。[5]

如果你愿意,我下一步可以直接帮你整理成一张更实用的对比表,按 Coding / Agent / Reasoning / Vision 四个维度分开排,并把“共享 benchmark”和“厂商自报 benchmark”明确分栏。

來源

  • [6] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co

    Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...

  • [13] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com

    Task budgets (beta) Claude Opus 4.7 introduces task budgets. A task budget gives Claude a rough estimate of how many tokens to target for a full agentic loop, including thinking, tool calls, tool results, and final output. The model sees a running countdown...

  • [27] GPT-5.5 System Card - OpenAIopenai.com

    GPT-5.5 System Card OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Try ChatGPT(opens in a new window)Login OpenAI April 23, 2026 SafetyPublication GPT‑5.5...

  • [29] Introducing GPT-5.5openai.com

    Introducing GPT-5.5 OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Introducing GPT-5.5 OpenAI Table of contents Model capabilities Next-generation inferenc...

  • [30] OpenAI Launches GPT-5.5 as Its Most Advanced AI Model Yet - MLQ.aimlq.ai

    Key Points OpenAI launched GPT-5.5 on April 24, 2026, highlighting improvements in agentic coding, computer use, knowledge tasks and scientific research. The model scores 82.7% on Terminal-Bench 2.0 and 73.1% on Expert-SWE benchmarks14. Available now to Plu...