如果你想搵一個「四大模型總冠軍」,答案其實係:暫時唔應該咁睇。Claude Opus 4.7、GPT-5.5、DeepSeek V4/V4 Pro 同 Kimi K2.6 目前可見嘅公開資料深淺唔一樣;有啲有官方資料加外部 leaderboard,有啲主要靠聚合器、社群評測或者技術 blog。將佢哋硬塞入同一張總榜,反而容易誤導。
更實際嘅做法係分兩條線睇:模型表現同證據可信度。以下係截至現有資料,較可 defend 嘅比較。
先講結論:邊個場景揀邊個?
| 模型 | 較穩陣解讀 | 證據信心 |
|---|---|---|
| Claude Opus 4.7 | 目前公開證據最支持佢做 coding、agentic software work、多步驟任務。Anthropic 報告 research-agent 內部 benchmark 0.715;Vals AI 在 2026年4月24日更新嘅 SWE-bench 頁面列 Claude Opus 4.7 以 82.00% 排第一 [ | 高至中 |
| GPT-5.5 | 通用推理非常強。O-Mega 報告 MMLU 92.4%、GPQA Diamond 93.6%、ARC-AGI-2 85.0%、ARC-AGI-1 95.0% [ | 中 |
| DeepSeek V4 / V4 Pro | coding 同技術探索有吸引力,但公開資料混合 V4、V4 Pro、V4 Pro High 多個變體,唔適合直接互換分數 [ | 中至低 |
| Kimi K2.6 | 有局部 benchmark 訊號,例如 LLM Stats 列 GPQA 0.91,WhatLLM 將 Kimi K2.6 放入 Quality Index top 10;但多 benchmark 覆蓋仍然唔夠 [ | 低 |
可比 benchmark 一覽
| Benchmark / 指標 | Claude Opus 4.7 | GPT-5.5 | DeepSeek V4 / V4 Pro | Kimi K2.6 | 點樣解讀 |
|---|---|---|---|---|---|
| SWE-bench | Vals AI:82.00%,2026年4月24日更新 [ | 未見可直接對照數字 | NxCode 稱 DeepSeek V4 達 81% [ | 未見可直接對照數字 | 最清晰公開訊號偏向 Claude。 |
| SWE-bench Verified | Vellum:87.6%;LMCouncil:83.5% ± 1.7 [ | 未見可直接對照數字 | Hugging Face 社群評測列出有跑 SWE-bench Verified,但可見摘要未有可直接對照數字 [ | 未見可直接對照數字 | 數字會因來源、配置、子集而變。 |
| SWE-bench Pro | Vellum:64.3% [ | 未見可直接對照數字 | Hugging Face 社群評測列出有跑 SWE-bench Pro,但可見摘要未有可直接對照數字 [ | 未見可直接對照數字 | 更貼近長周期 software agent 任務。 |
| GPQA Diamond | O-Mega、Vellum、TNW:94.2% [ | O-Mega、Vellum:93.6% [ | 社群 suite 有提及,但可見摘要未有可直接對照數字 [ | LLM Stats:0.91 [ | Claude 同 GPT-5.5 差距太細,唔應只靠 GPQA 定勝負。 |
| MMLU | 未見可直接對照數字 | O-Mega:92.4% [ | MMLU-Pro 出現在社群評測項目,但可見摘要未有數字 [ | 未見可直接對照數字 | MMLU 對 frontier models 已偏飽和,分辨力有限。 |
| ARC-AGI | 未見可直接對照數字 | ARC-AGI-2:85.0%;ARC-AGI-1:95.0%,O-Mega 報告 [ | 未見可直接對照數字 | 未見可直接對照數字 | 支持 GPT-5.5 推理能力強,但仍要留意來源。 |
| Research-agent / multi-step work | Anthropic 內部 benchmark:0.715 [ | 未見可直接對照數字 | BenchLM:DeepSeek V4 Pro High Agentic 83.8/100 [ | 未見可直接對照數字 | 有方向性參考,但兩者唔係同一把尺。 |
| Long context / Needle-in-a-Haystack | Anthropic 稱 Opus 4.7 在其測試模型之中 long-context 表現最一致 [ | 未見可直接對照數字 | NxCode 報告 1M tokens Needle-in-a-Haystack 97%,但同時要等獨立驗證先可作結論 [ | 未見可直接對照數字 | DeepSeek claim 幾強,但未係定案。 |
| LiveCodeBench / Codeforces | 未見可直接對照數字 | 未見可直接對照數字 | Redreamality:DeepSeek V4 LiveCodeBench 93.5、Codeforces 3206 [ | 未見可直接對照數字 | 對純 coding 係正面訊號,但唔等於 agentic coding 全面勝出。 |
點解唔可以「一個分數定生死」?
首先,benchmark 本身唔係同一樣嘢。SWE-bench 著眼於實際 software engineering 任務;Vals AI 將佢描述為解決 production software engineering tasks 嘅 benchmark [17]。但 SWE-bench Pro 又要另外睇,因為相關 paper 將佢定位為更困難、面向長周期 software engineering 任務嘅 benchmark [
38]。
其次,GPQA Diamond 雖然常用嚟睇科學推理,但對頂尖模型嘅分辨力開始有限。TNW 指出,在 GPQA Diamond 上,Opus 4.7、GPT-5.4 Pro、Gemini 3.1 Pro 等 frontier models 已經非常接近,差距落入 measurement noise 之內 [15]。MMLU 更加要小心:Nanonets 指 2026 年 top models 已普遍高過 88%,令 MMLU 太飽和,難以細分最前列模型 [
1]。
第三,來源重量唔同。官方 benchmark、獨立 leaderboard、聚合器、社群討論、技術 blog,可信度唔可以一視同仁。例如 BenchLM 表示,Claude Opus 4.7 相關 profile 仍未放入公開 leaderboard,原因係未有足夠非生成、公開 benchmark 覆蓋去安全排名 [14]。呢類註腳好重要,因為佢提醒你:即使模型好強,公開證據仍可能未完全齊。
Claude Opus 4.7:coding 同 agentic 任務證據最硬
Claude Opus 4.7 係今次四個模型入面,公開證據最完整嘅一個。Anthropic 官方表示,Opus 4.7 在其內部 research-agent benchmark 六個模組中以 0.715 並列整體最高,並且係其測試模型之中 long-context 表現最一致 [16]。由於呢個係內部 benchmark,唔應該當成獨立第三方測試;但作為官方能力方向訊號,佢相當清楚。
外部訊號方面,SWE-bench 最關鍵。Vals AI 在 2026年4月24日更新嘅 SWE-bench 頁面列 Claude Opus 4.7 以 82.00% 排第一 [17]。Vellum 另外報告 Claude Opus 4.7 在 SWE-bench Verified 達 87.6%,SWE-bench Pro 達 64.3% [
20]。LMCouncil 則列出 Claude Opus 4.7 在 SWE-bench Verified 為 83.5% ± 1.7 [
9]。
正確讀法唔係揀最高一個數字,然後話其他錯。更穩陣係話:Claude 在多個 software engineering 相關來源都處於領先或高位;但 SWE-bench、SWE-bench Verified、SWE-bench Pro 唔係同一個 test,結果亦可能受日期、配置、子集同方法影響 [17][
20][
38]。
在科學推理上,Claude Opus 4.7 在 O-Mega、Vellum、TNW 都見到 GPQA Diamond 94.2% [3][
12][
15]。不過,正如上面所講,GPQA 對 frontier models 已經好擠,單靠呢個分數唔足以宣佈總冠軍 [
15]。
GPT-5.5:推理數字靚,但官方可追溯性較弱
GPT-5.5 最突出係推理。O-Mega 報告 GPT-5.5 在 MMLU 有 92.4%、GPQA Diamond 93.6%、ARC-AGI-2 85.0%、ARC-AGI-1 95.0% [3]。Vellum 亦列出 GPT-5.5 在 GPQA Diamond 為 93.6%,喺該表低過 Claude Opus 4.7 [
12]。BenchLM 則將 GPT-5.5 放在高階模型位置:provisional leaderboard 89/100,在 verified leaderboard 排 16 個模型之中第 2 [
6]。
主要保留係可追溯性。今次可用資料入面,GPT-5.5 多數出現在文章、聚合器同 benchmark 頁面;未見到一張 OpenAI 官方 benchmark card,可以同 Anthropic 對 Claude Opus 4.7 嘅官方材料作同級對照。Appwrite 指 GPT-5.5 相關發布文章日期為 2026年4月24日,並寫到 OpenAI 在 2026年4月23日 shipped GPT-5.5;Vals AI 亦列 openai/gpt-5.5 release date 為 4/23/2026,Vals Index 為 67.76% ± 1.79 [2][
11]。但呢啲仍然唔等於一份官方 benchmark card。
所以,如果做 executive summary,GPT-5.5 應該被定位為「通用推理一線競爭者」,尤其因為 GPQA 同 ARC-AGI 數字好強;但如果你要求四個模型都有同質、公開、可追溯證據,就唔應該直接封佢做總冠軍 [3][
6][
12]。
DeepSeek V4 / V4 Pro:值得試,但要分清版本
DeepSeek 最大問題唔係冇亮點,而係版本有啲亂。現有資料有時講 DeepSeek V4,有時講 DeepSeek V4 Pro,有時又係 DeepSeek V4 Pro High。呢幾個唔應該自動當成同一個模型,亦唔應該將一個變體嘅分數搬去另一個變體 [25][
26][
27]。
Hugging Face 上 DeepSeek-V4-Pro 社群討論列出多個評測項目,包括 GPQA、GSM8K、HLE、MMLU-Pro、SWE-bench Pro、SWE-bench Verified、Terminal-Bench 2.0 [25]。BenchLM 則報告 DeepSeek V4 Pro High 在 Agentic 類別有 83.8/100,Coding 類別有 88.8/100,Knowledge 類別有 72.1/100 [
27]。
NxCode 對 DeepSeek V4 有更進取嘅說法:SWE-bench 81%,以及 1M tokens Needle-in-a-Haystack 97%;但佢同時以「如果 97% 在獨立測試站得住」作前提,意味呢個 long-context claim 未可直接當成定論 [26]。
Redreamality 亦提供另一個正面訊號:DeepSeek V4 在 LiveCodeBench 93.5、Codeforces 3206 [30]。不過同一篇分析亦總結,對於 SWE-bench Pro、Terminal-Bench 2.0 呢類長周期 agentic work,封閉 frontier models 仍然領先 [
30]。
實務上,DeepSeek V4/V4 Pro 值得做內部 PoC,尤其如果團隊重視技術控制、成本結構、開放生態或者本地部署可行性。但基於現有公開資料,佢仍未去到 Claude 在 SWE-bench 同 Anthropic 官方 multi-step 訊號嗰種證據強度 [16][
17][
25][
27]。
Kimi K2.6:有訊號,但未夠做完整比較
Kimi K2.6 唔應該被完全排除,但亦唔應該扮到好似已有同級 benchmark 覆蓋。LLM Stats 將 Kimi K2.6 列為 GPQA 0.91;WhatLLM 亦將 Kimi K2.6 放入按 Quality Index 排列嘅 top 10 模型 [7][
21]。呢啲係有用訊號,但未夠支持佢同 Claude Opus 4.7、GPT-5.5、DeepSeek V4/V4 Pro 做全面、逐項 benchmark 對照。
另一個要避開嘅坑係用 Kimi K2.5 代替 Kimi K2.6。Simon Willison 在 2026年2月記錄過 Kimi K2.5 在 SWE-bench Verified 相關更新入面嘅表現,但嗰個係另一個版本,唔可以靜雞雞搬去 Kimi K2.6 [8]。嚴謹寫法應該係:Kimi K2.6 目前證據不足,等待更多多 benchmark 驗證。
按用途排名:比「總榜」更有用
| 使用場景 | 建議模型 | 信心 | 原因 |
|---|---|---|---|
| 解 real-world software issues、coding agent | Claude Opus 4.7 | 高至中 | Vals AI 列 Claude Opus 4.7 在 SWE-bench 82.00% 排第一;Vellum 亦列出 SWE-bench Verified 87.6%、SWE-bench Pro 64.3% [ |
| 多步驟任務、research-agent workflow | Claude Opus 4.7 | 中 | Anthropic 報告其內部 research-agent benchmark 0.715,並稱 long-context 表現最一致 [ |
| 科學推理,例如 GPQA 類任務 | Claude Opus 4.7 或 GPT-5.5 | 中 | Claude 為 94.2%,GPT-5.5 為 93.6%;差距細,而且 GPQA 在 frontier models 之間已好擠 [ |
| 通用推理展示 | GPT-5.5 | 中至低 | MMLU、GPQA、ARC-AGI 數字強,但主要來自 O-Mega、Vellum、BenchLM 等第三方或聚合來源 [ |
| 開放/本地/技術控制導向探索 | DeepSeek V4 / V4 Pro | 中至低 | Hugging Face、BenchLM、NxCode、Redreamality 都有正面訊號,但版本混合,需要自己驗證 [ |
| 完整量化排名 | 暫時唔建議將 Kimi K2.6 當已驗證 comparable | 低 | LLM Stats GPQA 0.91 同 WhatLLM Quality Index top 10 只係局部訊號,未夠全面 [ |
如果要放入簡報,應該點講?
最穩陣嘅簡報結構係三頁:
- 按使用場景嘅建議:coding/agent 選 Claude;通用推理將 GPT-5.5 放入一線候選;DeepSeek 做技術探索;Kimi K2.6 標註為資料不足。
- benchmark 數字表:清楚分開 SWE-bench、SWE-bench Verified、SWE-bench Pro、GPQA、MMLU、ARC-AGI。
- 方法論限制:逐個數字標註來源類型,包括官方、leaderboard、聚合器、社群評測、claim。
尤其要加三句 disclaimer。第一,唔好將 SWE-bench、SWE-bench Verified、SWE-bench Pro 當成同一個測試,因為 SWE-bench Pro 本身就係更難、面向長周期 software engineering 任務 [38]。第二,唔好過度依賴 MMLU,因為 top models 已集中在 88% 以上,分辨力下降 [
1]。第三,DeepSeek 同 Kimi 要特別標明版本同資料覆蓋,避免將不同模型或不同變體混為一談 [
8][
25][
27]。
最後判斷
如果目標係做一份「證據可 defend」嘅 2026 模型比較,Claude Opus 4.7 應該排第一:佢有 Anthropic 官方 multi-step / long-context 訊號,又有 Vals AI SWE-bench 第一,以及第三方對 SWE-bench Verified、SWE-bench Pro 嘅強勢數字 [16][
17][
20]。
GPT-5.5 應該被視為推理能力一線競爭者;但現有資料主要係第三方或聚合來源,所以唔宜寫成全局勝出 [3][
6][
12]。DeepSeek V4/V4 Pro 應該進入內部測試清單,而唔係直接宣佈領先 [
25][
26][
27][
30]。Kimi K2.6 則暫時只能列為「有初步訊號,但證據不足」[
7][
21]。




