公開 benchmark 可以令你快啲縮窄模型名單,但唔好急住將四個名拼成一張「總分榜」。就目前可引用資料,來源分別係 OpenAI 的 GPT-5.5 發布頁同系統卡、Anthropic 的 Claude Opus 4.7 API 文件,以及 DeepSeek V4-Pro 模型卡;佢哋並唔係同一個第三方、同一版本、同一套測試設定下做嘅完整四方同場測試。[29][
27][
13][
6]
換句話講,公開分數有參考價值,但如果你係為產品、採購或者架構選型做決定,應該把它當成第一輪篩選,而唔係最後判決。
先講清楚:本文比較邊個版本
本文把 DeepSeek V4 限定為 DeepSeek 模型卡入面嘅 DS-V4-Pro Max,把 Kimi K2.6 限定為 K2.6 Thinking;呢兩個係 DeepSeek 表格可以直接引用嘅欄名。[6]
呢點好重要:DeepSeek 模型卡入面嘅 GPT 同 Claude 欄,分別係 GPT-5.4 xHigh 同 Opus-4.6 Max,唔係本文要比較嘅 GPT-5.5 同 Claude Opus 4.7。[6] 所以,唔可以直接用 DeepSeek 嗰張表去判斷 DeepSeek V4-Pro Max 對 GPT-5.5 或 Claude Opus 4.7 嘅完整勝負。
Anthropic 公開嘅 Claude Opus 4.7 API 文件,重點係功能同調用方式,例如 task budgets13]
最硬淨嘅四方交集:Terminal-Bench 2.0
喺本文可引用資料入面,四個目標模型都有公開分數、而又比較容易擺埋一齊睇嘅項目,是 Terminal-Bench 2.0。按現有公開表格,排序如下:
| 模型 | Terminal-Bench 2.0 | 來源 |
|---|---|---|
| GPT-5.5 | 82.7% | OpenAI 發布頁及 MLQ.ai 摘要 [ |
| Claude Opus 4.7 | 69.4% | OpenAI 發布頁 [ |
| DeepSeek V4-Pro Max | 67.9% | DeepSeek V4-Pro 模型卡 [ |
| Kimi K2.6 Thinking | 66.7% | DeepSeek V4-Pro 模型卡 [ |
呢個比較可以支持一個窄但有用嘅結論:只睇 Terminal-Bench 2.0,GPT-5.5 明顯領先,Claude Opus 4.7 排第二,DeepSeek V4-Pro Max 同 Kimi K2.6 Thinking 接近。[29][
30][
6]
但呢個結論唔應該被放大成「GPT-5.5 在所有場景都贏」。Terminal-Bench 2.0 只係一項測試;真正上線時,工具權限、上下文長度、推理預算、提示詞、重試策略同成本限制,都可能改變結果。
OpenAI 表內:GPT-5.5 對 Claude Opus 4.7
OpenAI 發布頁列出 GPT-5.5 同 Claude Opus 4.7 多項 benchmark 對比;喺表內列出嘅項目,GPT-5.5 分數都高過 Claude Opus 4.7。[29]
| Benchmark(OpenAI 表) | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% |
| GDPval wins or ties | 84.9% | 80.3% |
| BrowseComp | 84.4% | 79.3% |
| FrontierMath Tier 1–3 | 51.7% | 43.8% |
| FrontierMath Tier 4 | 35.4% | 22.9% |
| CyberGym | 81.8% | 73.1% |
穩陣講法係:喺 OpenAI 列出嘅呢幾項入面,GPT-5.5 高於 Claude Opus 4.7。[29] OpenAI 系統卡亦將 GPT-5.5 描述為面向複雜真實工作的模型,包括寫 code、網上研究、分析資料、建立文件同試算表,以及跨工具完成任務等場景。[
27]
不過,呢組仍然係 OpenAI 發布頁中嘅對比表,唔等於獨立第三方用同一套 harness 對四個目標模型做嘅統一復測。[29]
DeepSeek 表內:DS-V4-Pro Max 對 Kimi K2.6 Thinking
DeepSeek V4-Pro 模型卡提供咗 DS-V4-Pro Max 同 K2.6 Thinking 多項表內對比。[6] 呢張表入面,DS-V4-Pro Max 喺多數項目高過 Kimi K2.6 Thinking;但 Kimi 亦有明確領先嘅項目。[
6]
| Benchmark(DeepSeek 模型卡) | DeepSeek V4-Pro Max | Kimi K2.6 Thinking | 表內領先 |
|---|---|---|---|
| MMLU-Pro | 87.5 | 87.1 | DeepSeek |
| SimpleQA-Verified | 57.9 | 36.9 | DeepSeek |
| Chinese-SimpleQA | 84.4 | 75.9 | DeepSeek |
| GPQA Diamond | 90.1 | 90.5 | Kimi |
| HLE | 37.7 | 36.4 | DeepSeek |
| LiveCodeBench | 93.5 | 89.6 | DeepSeek |
| HMMT 2026 Feb | 95.2 | 92.7 | DeepSeek |
| IMOAnswerBench | 89.8 | 86.0 | DeepSeek |
| Apex Shortlist | 90.2 | 75.5 | DeepSeek |
| SWE Pro | 55.4 | 58.6 | Kimi |
| Terminal-Bench 2.0 | 67.9 | 66.7 | DeepSeek |
所以較安全嘅讀法係:在 DeepSeek 模型卡列出嘅多數項目上,DS-V4-Pro Max 高於 K2.6 Thinking;但 Kimi K2.6 Thinking 在 GPQA Diamond 同 SWE Pro 上領先。[6] 另外,MMLU-Pro 同 Terminal-Bench 2.0 嘅差距都唔算大,做產品決策時唔好只睇箭嘴向邊,仲要睇任務類型、樣本穩定性同你自己嘅容錯空間。
點解唔可以直接排四方總榜
最常見嘅錯誤,是將 OpenAI 表、DeepSeek 表同 Anthropic 功能文件硬合併,然後計出一個「總冠軍」。目前公開資料唔支持咁做,主要有三個原因:
- 版本唔一致。 OpenAI 表比較 GPT-5.5 同 Claude Opus 4.7;DeepSeek 表入面嘅 GPT 同 Claude 欄卻係 GPT-5.4 xHigh 同 Opus-4.6 Max。[
29][
6]
- 來源唔一致。 現有資料來自廠商發布頁、系統卡、API 文件同模型卡,唔係同一個第三方評測框架下嘅完整四方復測。[
29][
27][
13][
6]
- 指標唔等價。 GDPval、BrowseComp、FrontierMath、CyberGym、MMLU-Pro、GPQA Diamond、SWE Pro 等項目量度嘅能力唔同;如果冇清楚權重,直接加總會掩蓋真實任務差異。[
29][
6]
因此,公開 benchmark 最適合用來做第一層篩選,而唔係產品採購、模型路由或架構選型嘅唯一依據。
真正揀模型時,應該點用呢啲分數
比較實際嘅做法,是分三層睇:
- 共享 benchmark 層。 目前最清楚嘅四方交集係 Terminal-Bench 2.0;喺呢一項,GPT-5.5 領先。[
29][
30][
6]
- 廠商表內比較層。 OpenAI 表支持 GPT-5.5 在列出項目高於 Claude Opus 4.7;DeepSeek 模型卡支持 DS-V4-Pro Max 在多數列項高於 K2.6 Thinking。[
29][
6]
- 業務復測層。 將你真正要做嘅任務拆成 coding、agent、reasoning、retrieval、tool use、latency、cost 等維度,用同一提示詞、同一上下文、同一工具權限同同一評分規則重測。
如果你嘅產品依賴較長嘅 agent loop,Claude Opus 4.7 嘅 task budgets13]
如果你嘅場景更接近複雜 coding、網上 research、文件或試算表生成、跨工具工作,GPT-5.5 系統卡描述嘅定位同呢類任務較直接相關。[27] 但即使某模型公開表分數較高,都應該放入你自己嘅 codebase、工具鏈、權限邊界、失敗復原規則同成本限制入面再試。
最穩妥嘅排名講法
- Terminal-Bench 2.0 單項: GPT-5.5 第一,Claude Opus 4.7 第二,DeepSeek V4-Pro Max 第三,Kimi K2.6 Thinking 第四。[
29][
30][
6]
- OpenAI 表內: GPT-5.5 在列出項目高於 Claude Opus 4.7。[
29]
- DeepSeek 表內: DS-V4-Pro Max 在多數列項高於 Kimi K2.6 Thinking,但 Kimi 在 GPQA Diamond 同 SWE Pro 領先。[
6]
- 四方絕對總排名: 證據不足。公開資料未有提供同一第三方、同一版本、同一測試條件下嘅完整四方對測。[
29][
13][
6]




