報告已發布3 個月前Last edited 2 個月前15 個來源

GPT-5.5、Claude Opus 4.7、DeepSeek V4 與 Kimi K2.6：公開基準測試能確定什麼？

目前最能四方對齊的公開項目是 Terminal Bench 2.0：GPT 5.5 為 82.7%，Claude Opus 4.7 為 69.4%，DeepSeek V4 Pro Max 為 67.9%，Kimi K2.6 Thinking 為 66.7%；但這只是單項比較，不是總榜。[29][30][6] OpenAI 表內顯示 GPT 5.5 在列出項目上高於 Claude Opus 4.7；DeepSeek 模型卡則顯示 DS V4 Pro Max 在多數列項高於 Kimi K2.6 Thinking，但 Kimi 在 GPQA Diamond 與 SWE Pro 領先。[29][6] 產品選型應把共同基準、廠商表內對比...

使用 Studio Global AI 搜尋並查證事實瀏覽更多熱門頁面

GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试对比示意图 — GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比：哪些结论站得住AI 生成插图：多模型基准测试对比场景。
AI 提示詞
Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比：哪些结论站得住. Article summary: 最稳妥的读法是：目前四者能较清楚横向对齐的是 Terminal Bench 2.0，GPT 5.5 以 82.7% 领先；但公开分数来自不同厂商表，不能直接合成为绝对总排名。[29][30][6]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "核心结论：2026年5月的AI模型排行榜呈现"三足鼎立"格局：GPT-5.5领跑Agentic工作流（Terminal-Bench 82.7%），Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜：GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Reference image 2: visual subject "核心结论：2026年5月的AI模型排行榜呈现"三足鼎立"格局：GPT-5.5领跑Agentic工作流（Terminal-Bench 82.7%），Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜：GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail,
openai.com

公開基準測試可以幫你快速縮小模型候選名單，但這四個名字目前不適合直接拼成一張「總分榜」。可引用資料主要來自 OpenAI 的 GPT-5.5 發布頁與系統卡、Anthropic 的 Claude Opus 4.7 API 文件，以及 DeepSeek V4-Pro 模型卡；它們不是同一個第三方機構、同一組版本、同一套評測配置下的完整四方同場測試。

先把版本口徑講清楚

本文以下把 DeepSeek V4 限定為 DeepSeek 模型卡中的 DS-V4-Pro Max，把 Kimi K2.6 限定為 K2.6 Thinking；這兩個名稱是 DeepSeek 表格中可以直接引用的欄位。

這件事很重要：DeepSeek 模型卡裡的 GPT 與 Claude 欄位分別是 GPT-5.4 xHigh 和 Opus-4.6 Max，不是本文要比較的 GPT-5.5 與 Claude Opus 4.7。因此，不能拿 DeepSeek 那張表直接判斷 DS-V4-Pro Max 相對 GPT-5.5 或 Claude Opus 4.7 的完整勝負。

Anthropic 的 Claude Opus 4.7 公開 API 文件重點放在功能與使用方式，例如


task budgets

beta，而不是提供一張可與 OpenAI、DeepSeek、Kimi 直接合併的四方 benchmark 總表。

最能四方對齊的一項：Terminal-Bench 2.0

在本文可引用資料中，四個目標模型都能找到分數的共同項目是 Terminal-Bench 2.0。按公開表格列出的數字，排序如下：

模型	Terminal-Bench 2.0	來源
GPT-5.5	82.7%	OpenAI 發布頁與 MLQ.ai 摘要
Claude Opus 4.7	69.4%	OpenAI 發布頁
DeepSeek V4-Pro Max	67.9%	DeepSeek V4-Pro 模型卡
Kimi K2.6 Thinking	66.7%	DeepSeek V4-Pro 模型卡

這能支持的結論很窄，但很有用：在 Terminal-Bench 2.0 這個單項上，GPT-5.5 明顯領先，Claude Opus 4.7 排第二，DeepSeek V4-Pro Max 與 Kimi K2.6 Thinking 相當接近。但這不能自動推出 GPT-5.5 在所有業務場景都領先，也不能取代同一評測框架、同一工具權限、同一上下文長度與同一推理預算下的復測。

GPT-5.5 對 Claude Opus 4.7：看 OpenAI 表內資料

OpenAI 發布頁列出 GPT-5.5 與 Claude Opus 4.7 的多項 benchmark 對比；在該表列出的項目中，GPT-5.5 的分數都高於 Claude Opus 4.7。

Benchmark（OpenAI 表）	GPT-5.5	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	69.4%
GDPval wins or ties	84.9%	80.3%
BrowseComp	84.4%	79.3%
FrontierMath Tier 1–3	51.7%	43.8%
FrontierMath Tier 4	35.4%	22.9%
CyberGym	81.8%	73.1%

比較穩妥的說法是：在 OpenAI 自家列出的這些項目裡，GPT-5.5 強於 Claude Opus 4.7。 OpenAI 的系統卡也把 GPT-5.5 定位為面向複雜真實工作的模型，涵蓋寫程式、線上研究、分析資訊、建立文件與試算表，以及跨工具完成任務等場景。

不過，這仍然是 OpenAI 發布頁中的對比表，不等於獨立第三方對四個目標模型做出的統一測試框架（harness）評測。

DeepSeek V4-Pro Max 對 Kimi K2.6 Thinking：看 DeepSeek 表內資料

DeepSeek V4-Pro 模型卡提供 DS-V4-Pro Max 與 K2.6 Thinking 的多項表內對比。在這張表裡，DeepSeek V4-Pro Max 在多數列項高於 Kimi K2.6 Thinking，但 Kimi 也有明確領先的項目。

Benchmark（DeepSeek 模型卡）	DeepSeek V4-Pro Max	Kimi K2.6 Thinking	表內領先
MMLU-Pro	87.5	87.1	DeepSeek
SimpleQA-Verified	57.9	36.9	DeepSeek
Chinese-SimpleQA	84.4	75.9	DeepSeek
GPQA Diamond	90.1	90.5	Kimi
HLE	37.7	36.4	DeepSeek
LiveCodeBench	93.5	89.6	DeepSeek
HMMT 2026 Feb	95.2	92.7	DeepSeek
IMOAnswerBench	89.8	86.0	DeepSeek
Apex Shortlist	90.2	75.5	DeepSeek
SWE Pro	55.4	58.6	Kimi
Terminal-Bench 2.0	67.9	66.7	DeepSeek

這組資料的合理讀法是：在 DeepSeek 模型卡列出的多數項目上，DS-V4-Pro Max 高於 K2.6 Thinking；但 Kimi K2.6 Thinking 在 GPQA Diamond 與 SWE Pro 上領先。其中 MMLU-Pro 和 Terminal-Bench 2.0 的差距不大，做產品決策時不宜只看領先方向，也要看任務類型與可接受的誤差空間。

為什麼不能直接排四方總榜

最容易誤讀的做法，是把 OpenAI 表、DeepSeek 表和 Anthropic 功能文件裡的資訊直接合併，再算出一個總冠軍。以目前公開資料來看，這樣做證據不足，主要有三個原因：

版本不一致。 OpenAI 表比較的是 GPT-5.5 與 Claude Opus 4.7；DeepSeek 表中的 GPT 與 Claude 欄位卻是 GPT-5.4 xHigh 與 Opus-4.6 Max。
來源不一致。 現有資料分別來自廠商發布頁、系統卡、API 文件與模型卡，並非同一第三方評測框架下的完整四方復測。
指標不等價。 GDPval、BrowseComp、FrontierMath、CyberGym、MMLU-Pro、GPQA Diamond、SWE Pro 等項目衡量的能力不同；沒有明確權重時，把它們相加成單一總分，反而會掩蓋任務差異。

換句話說，公開 benchmark 適合當第一層篩選，不適合單獨當成採購、架構選型或產品路線的最後依據。

選型時，比排名更重要的是復測方式

如果你要把模型放進產品或內部工作流，建議分三層看：

共同 benchmark 層。 目前最清楚的四方交集是 Terminal-Bench 2.0；在這一項上，GPT-5.5 領先。
廠商表內比較層。 OpenAI 表支持 GPT-5.5 在列出項目上高於 Claude Opus 4.7；DeepSeek 模型卡支持 DS-V4-Pro Max 在多數列項上高於 K2.6 Thinking。
業務復測層。 把你的真實任務拆成 coding、agent、reasoning、retrieval、tool use、latency、cost 等維度，在同一提示詞、同一上下文、同一工具權限和同一評測規則下重跑。

如果產品依賴很長的代理式工作循環，Claude Opus 4.7 的


task budgets

值得單獨測試：Anthropic 文件稱，它會為完整 agentic loop 提供粗略 token 目標，涵蓋 thinking、tool calls、tool results 與 final output，並讓模型看到預算倒數，以便安排工作並在預算耗盡時收尾。

如果產品更接近複雜程式開發、線上研究、文件或試算表生成、跨工具操作，GPT-5.5 系統卡對這些場景的描述更直接相關。但即使某個模型在公開表上領先，仍然要放進你的程式碼庫、工具鏈、權限邊界與失敗恢復規則裡復測。

目前最穩妥的結論

Terminal-Bench 2.0 單項： GPT-5.5 第一，Claude Opus 4.7 第二，DeepSeek V4-Pro Max 第三，Kimi K2.6 Thinking 第四。
OpenAI 表內： GPT-5.5 在列出的項目上高於 Claude Opus 4.7。
DeepSeek 表內： DS-V4-Pro Max 在多數列項上高於 Kimi K2.6 Thinking，但 Kimi 在 GPQA Diamond 與 SWE Pro 上領先。
四方絕對總排名： 證據不足。公開資料尚未提供同一第三方、同一版本、同一評測條件下的完整四方對測。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

大家也會問