如果只問「邊個最強」,答案反而容易誤導。Vals AI 列表把 DeepSeek V4 同 GPT-5.5 列為 2026 年 4 月 23 日項目,Kimi K2.6 為 4 月 20 日,Claude Opus 4.7 為 4 月 16 日 [19]。但目前可見資料分散喺 BenchLM、官方發布、DataCamp/Hugging Face、Vals、Artificial Analysis 等不同體系,未有一份用同一把尺、同一設定、同一成本條件將四個模型齊齊橫評 [
2][
3][
15][
16][
28][
29][
36][
37][
39]。
所以,今次比較嘅重點唔係硬排 1 至 4,而係拆開睇:你要寫 code、做知識工作、跑 agent、處理金融文件、做科學推理,抑或想控制成本?答案會唔同。
先講清楚:AI benchmark 唔係一場單一考試
2026 年嘅 AI benchmark 更似一籃子能力測試。Kili Technology 將 MMLU、MMLU-Pro、GPQA Diamond、SWE-Bench、Terminal-Bench、GAIA、WebArena、GDPval、安全性評估等分成不同能力軸去理解 [8]。Stanford HAI 的 AI Index 亦將技術性能分開看,例如 MMLU、MATH、GPQA Diamond、MMMU、OSWorld、AIME、SWE-bench Verified 等 [
13]。
尤其係 MMLU 這類一般知識測試,對頂尖模型嘅分辨力已經下降。Nanonets 解釋,MMLU 以 5-shot 方式計分,而到 2026 年,頂級模型大多擠在 88% 以上,差距變得難以拉開 [22]。換句話講,淨係睇一個總分,好容易睇錯重點;揀模型之前,應該先問清楚自己實際要佢做咩 [
8][
22]。
公開數字一覽
| 模型 | 公開資料中可見重點數字 | 可以點讀 | 小心位 |
|---|---|---|---|
| Claude Opus 4.7 | BenchLM 97/100,provisional 第 2/110;SWE-bench Verified 82.4%;FinanceBench 82.7%;MathVista 上升 9.5 分 [ | coding、綜合 leaderboard、金融文件分析、視覺數學推理 | Anthropic 的 research-agent benchmark 0.715 屬內部評估,唔應直接同 GPT-5.5 的 GDPval 等數字當同一把尺比較 [ |
| GPT-5.5 | BenchLM 89/100,provisional 第 5/112;GDPval 84.9%;OSWorld-Verified 78.7%;Tau2-bench Telecom 98.0%;Vals Accuracy 67.76% ± 1.79 [ | 知識工作、電腦操作、客戶支援流程、agent 型任務 | OpenAI 官方發布、BenchLM、Vals Index 係不同評估體系,唔應直接相加或互換 [ |
| DeepSeek V4 / V4-Pro-Max | Vals AI 2026 年 4 月 23 日項目;V4-Pro-Max MMLU-Pro 87.5%、GPQA Diamond 90.1%、GSM8K 92.6% [ | 科學問答、數學、高難度推理候選 | DataCamp 說明相關數字基於 DeepSeek 內部結果,解讀時要同獨立 leaderboard 分開 [ |
| Kimi K2.6 | BenchLM 85/100,provisional 第 12/115;Vals Accuracy 63.94% ± 1.97、Latency 373.57s、Cost/Test 0.21 美元;Artificial Analysis Intelligence Index 54、整體第 4 [ | 開放權重路線、成本與延遲、營運效率 | 資料中有 Kimi 2.6、Kimi K2.6、K2.6 Thinking 等叫法,要確認是否同一設定 [ |
綜合 leaderboard:BenchLM 入面 Claude 較前
只看提供資料中有 BenchLM 頁面的三個模型,Claude Opus 4.7 位置最前。BenchLM 顯示 Claude Opus 4.7 在 provisional leaderboard 110 個模型中排第 2,overall score 97/100;在 verified leaderboard 亦是 14 個模型中第 2 [3]。
GPT-5.5 在 BenchLM provisional leaderboard 112 個模型中排第 5,overall score 89/100;verified leaderboard 則是 16 個模型中第 2 [28]。Kimi 2.6 在 BenchLM provisional leaderboard 115 個模型中排第 12,overall score 85/100,並顯示有 27 個公開 benchmark 分數 [
37]。
不過,這個排序只係 BenchLM 角度。三個頁面比較樣本數分別是 110、112、115,而且目前資料未能提供 DeepSeek V4 同等 BenchLM 分數放埋一齊比 [3][
28][
37]。
Coding:Claude Opus 4.7 的公開數字最直接
如果焦點係軟件工程、修 bug、改 repo,Claude Opus 4.7 的 SWE-bench Verified 數字最清楚。MindStudio 指 Claude Opus 4.7 在 SWE-bench Verified 達 82.4%,比 Opus 4.6 約升 11 個百分點 [2]。同一資料亦列出 Claude Opus 4.7 的 FinanceBench 為 82.7%,並提到視覺相關改善中 MathVista 上升 9.5 分 [
2]。
GPT-5.5 方面,OpenAI 介紹資料重點列出的不是 SWE-bench,而是 GDPval、OSWorld-Verified、Tau2-bench Telecom 等工作型指標 [29]。Kimi K2.6 方面,GMI Cloud 資料聲稱其在 SWE-Bench Pro 有領先表現,但現有公開摘要未足以確認精確分數,亦未能證明四模型是在同一條件下比較 [
35]。DeepSeek V4 在這批資料中,較具體可見的是推理同數學相關數字,而非 coding 橫向比較 [
15][
16]。
工作型 agent:GPT-5.5 的官方指標最具體
如果你關心嘅係「模型可唔可以自己完成知識工作、操作電腦環境、處理客戶支援流程」,GPT-5.5 的官方數字相對最集中。OpenAI 表示 GPT-5.5 在 GDPval 得 84.9%,而 GDPval 測試 agent 在 44 個職業中產出規格化知識工作的能力 [29]。OpenAI 亦列出 GPT-5.5 在 OSWorld-Verified 得 78.7%,以及在測試複雜客戶服務流程的 Tau2-bench Telecom 得 98.0% [
29]。
Claude Opus 4.7 亦有 agent 型資料。Anthropic 指,在其內部 research-agent benchmark 中,Claude Opus 4.7 於 6 個模組總分為 0.715,並列最高;在 General Finance 模組中,它由 Opus 4.6 的 0.767 升至 0.813 [7]。
但要留神:GPT-5.5 的 GDPval、OSWorld-Verified、Tau2-bench,同 Claude Opus 4.7 的 Anthropic 內部 research-agent benchmark,評估體系唔同 [7][
29]。GPT-5.5 的 84.9% 同 Claude 的 0.715,唔可以當成同一分數表直接比較 [
7][
29]。
推理與知識:DeepSeek V4-Pro-Max 同 Kimi K2.6 Thinking 有部分同表資料
DeepSeek V4 較具體的公開數字,主要見於 V4-Pro-Max 設定。DataCamp 指,根據 DeepSeek 內部結果,DeepSeek V4-Pro-Max 在 MMLU-Pro 得 87.5%、GPQA Diamond 得 90.1%、GSM8K 數學得 92.6% [15]。這些數字有參考價值,但既然 DataCamp 明確指出是基於內部結果,就唔應同獨立 leaderboard 當成同等證據重量 [
15]。
Hugging Face 的 DeepSeek-V4-Pro 資料,將 DeepSeek V4-Pro-Max 同 Kimi K2.6 Thinking 放在同一表格的部分知識/推理項目中比較 [16]:
| Benchmark | DeepSeek V4-Pro-Max | Kimi K2.6 Thinking | 表內較高者 |
|---|---|---|---|
| MMLU-Pro | 87.5 | 87.1 | DeepSeek V4-Pro-Max |
| SimpleQA-Verified | 57.9 | 36.9 | DeepSeek V4-Pro-Max |
| Chinese-SimpleQA | 84.4 | 75.9 | DeepSeek V4-Pro-Max |
| GPQA Diamond | 90.1 | 90.5 | Kimi K2.6 Thinking |
| HLE | 37.7 | 36.4 | DeepSeek V4-Pro-Max |
單看這張表,DeepSeek V4-Pro-Max 在 MMLU-Pro、SimpleQA-Verified、Chinese-SimpleQA、HLE 較高;Kimi K2.6 Thinking 則在 GPQA Diamond 略高 [16]。但同表比較對象不是 Claude Opus 4.7 同 GPT-5.5,而是 Opus-4.6 Max、GPT-5.4 xHigh 等其他模型,所以唔足以推出四模型總排名 [
16]。
成本與延遲:Kimi K2.6 的營運指標值得望多眼
Vals AI 顯示 GPT-5.5 的 Accuracy 為 67.76% ± 1.79,Latency 為 409.09s,Context Window 為 1M [31]。Kimi K2.6 則顯示 Accuracy 為 63.94% ± 1.97,Latency 為 373.57s,Cost/Test 為 0.21 美元 [
39]。只比較這兩條 Vals 紀錄,準確率顯示值是 GPT-5.5 較高,延遲顯示值則是 Kimi K2.6 較低 [
31][
39]。
Kimi K2.6 對重視開放權重的使用者亦有另一層意義。Artificial Analysis 形容 Moonshot 的 Kimi K2.6 是 leading open weights model,並列出 Artificial Analysis Intelligence Index 54、整體第 4 的排名 [36]。但 Artificial Analysis、Vals、BenchLM 都是不同評估體系,Kimi 的 54 分、Vals Accuracy 63.94%、BenchLM 85/100 不應加埋變成一個總分 [
36][
37][
39]。
實務揀模型:可以咁樣拆開睇
- 主要做 coding/自動修補軟件問題:Claude Opus 4.7 值得先試。現有公開根據中,SWE-bench Verified 82.4% 同 BenchLM 97/100 是最清晰的強項數字 [
2][
3]。
- 主要做知識工作、電腦操作、客戶支援流程:GPT-5.5 的 GDPval 84.9%、OSWorld-Verified 78.7%、Tau2-bench Telecom 98.0% 是較直接的官方指標 [
29]。
- 主要比較科學問答、數學、高難度推理候選:可一併看 DeepSeek V4-Pro-Max 與 Kimi K2.6 Thinking 的 MMLU-Pro、GPQA Diamond、HLE 等項目 [
15][
16]。
- 主要重視開放權重、成本與延遲:Kimi K2.6 的 Artificial Analysis open weights 評價,以及 Vals 的每次測試 0.21 美元、373.57s 延遲,會是實用參考點 [
36][
39]。
- 唔好只靠 MMLU 一個分數:2026 年頂級模型在 MMLU 高分區太接近,分辨力已下降 [
22]。
最後判斷
以現有公開根據計,Claude Opus 4.7 的優勢較明顯在 coding 與 BenchLM 綜合榜;GPT-5.5 較突出在知識工作、電腦使用同工作型 agent 指標;DeepSeek V4-Pro-Max 有較具體的推理與數學公開數字;Kimi K2.6 則在開放權重、成本與延遲指標上較值得留意 [2][
3][
15][
16][
28][
29][
36][
37][
39]。
但四個模型目前仍未有一套完全公平、同條件、同成本的公開橫評。真正落地時,最好用這些 benchmark 做起點,再按自己工作場景另行測試:例如 coding、金融文件分析、瀏覽器/電腦控制、客戶支援、長時間 agent 執行等。咁樣揀模型,會比追逐單一「第一名」安全得多 [8][
22]。




