把 Claude Opus 4.7、GPT-5.5、DeepSeek V4 與 Kimi K2.6 直接排成一張總榜,看似乾脆,實際上風險很高。原因不在於這些模型不夠強,而是公開證據的厚度差很多:Claude Opus 4.7 同時有 Anthropic 官方資料與外部 SWE-bench 訊號;GPT-5.5 在推理測試上很亮眼,但主要出現在二手分析與彙整平台;DeepSeek V4/V4 Pro 的資料橫跨社群評測、聚合榜單與技術文章;Kimi K2.6 則還沒有足夠多的可比 benchmark 覆蓋。
先給結論:不要問誰全面第一,要問要拿來做什麼
| 模型 | 最穩健的判讀 | 證據可信度 |
|---|---|---|
| Claude Opus 4.7 | 目前公開資料中,coding、軟體代理與多步任務的證據最完整。Anthropic 報告內部 research-agent benchmark 為 0.715,Vals AI 在 SWE-bench 將其列為第一,分數 82.00% [ | 高—中 |
| GPT-5.5 | 一般推理很強。O-Mega 報告 MMLU 92.4%、GPQA Diamond 93.6%、ARC-AGI-2 85.0%、ARC-AGI-1 95.0% [ | 中 |
| DeepSeek V4 / V4 Pro | coding 與技術自主性有吸引力,但公開資料混用 V4、V4 Pro、V4 Pro High,不能把不同版本的分數直接相加 [ | 中—低 |
| Kimi K2.6 | 有局部訊號,例如 LLM Stats 列出 GPQA 0.91,WhatLLM 將其放入 Quality Index 前十;但不足以做完整橫向比較 [ | 低 |
可比 benchmark 速查表
| Benchmark 或指標 | Claude Opus 4.7 | GPT-5.5 | DeepSeek V4 / V4 Pro | Kimi K2.6 | 該怎麼解讀 |
|---|---|---|---|---|---|
| SWE-bench | Vals AI 於 2026 年 4 月 24 日更新頁面,列出 82.00% [ | 未找到可比數字 | NxCode 宣稱 DeepSeek V4 為 81% [ | 未找到可比數字 | 最乾淨的公開訊號偏向 Claude。 |
| SWE-bench Verified | Vellum 報告 87.6%;LMCouncil 報告 83.5% ± 1.7 [ | 未找到可比數字 | Hugging Face 社群討論列入 SWE-bench Verified 評測,但摘要未見可比數字 [ | 未找到可比數字 | 來源、設定與子集不同,分數不能硬湊。 |
| SWE-bench Pro | Vellum 報告 64.3% [ | 未找到可比數字 | Hugging Face 社群討論列入 SWE-bench Pro,但摘要未見可比數字 [ | 未找到可比數字 | 更接近長時程軟體代理任務。 |
| GPQA Diamond | O-Mega、Vellum、TNW 均列出 94.2% [ | O-Mega 與 Vellum 列出 93.6% [ | 社群評測套件有提到,但摘要未見可比數字 [ | LLM Stats 列出 0.91 [ | Claude 與 GPT-5.5 太接近,不能只靠 GPQA 判勝負。 |
| MMLU | 未找到可比數字 | O-Mega 列出 92.4% [ | MMLU-Pro 出現在社群評測中,但摘要未見可比數字 [ | 未找到可比數字 | MMLU 對頂尖模型的區分力已偏低。 |
| ARC-AGI | 未找到可比數字 | O-Mega 列出 ARC-AGI-2 85.0%、ARC-AGI-1 95.0% [ | 未找到可比數字 | 未找到可比數字 | 加強 GPT-5.5 的推理案例,但仍要看來源屬性。 |
| Research-agent / 多步任務 | Anthropic 內部 benchmark 為 0.715 [ | 未找到可比數字 | BenchLM 對 DeepSeek V4 Pro High 報告 Agentic 83.8/100 [ | 未找到可比數字 | 方向有參考價值,但不是同一把尺。 |
| 長上下文 / Needle-in-a-Haystack | Anthropic 稱 Opus 4.7 在其測試模型中長上下文表現最穩定 [ | 未找到可比數字 | NxCode 宣稱 100 萬 token 下為 97%,但也指出需獨立驗證 [ | 未找到可比數字 | DeepSeek 的說法值得追蹤,但還不是定論。 |
| LiveCodeBench / Codeforces | 未找到可比數字 | 未找到可比數字 | Redreamality 報告 DeepSeek V4 的 LiveCodeBench 93.5、Codeforces 3206 [ | 未找到可比數字 | 對純 coding 是正面訊號,但不等於代理式軟體工程領先。 |
讀 benchmark 前,先避開三個陷阱
第一,SWE-bench、SWE-bench Verified、SWE-bench Pro 不是同一個東西。Vals AI 將 SWE-bench 描述為用來解決生產環境軟體工程任務的 benchmark [17];而 SWE-bench Pro 的論文則把它定位為更困難、面向長時程軟體工程任務的測試 [
38]。所以,看到 SWE-bench Pro 分數較低,不一定代表模型退步,而可能是題目本來就更難。
第二,GPQA Diamond 與 MMLU 都要小心解讀。TNW 指出,在 GPQA Diamond 上,Opus 4.7、GPT-5.4 Pro、Gemini 3.1 Pro 等 frontier 模型已經非常接近,差距落在測量雜訊範圍內 [15]。MMLU 更需要降權看待:Nanonets 指出,2026 年頂尖模型已普遍超過 88%,這個 benchmark 已很難細分領先群 [
1]。
第三,分數的來源很重要。官方模型文章、獨立 leaderboard、彙整網站、社群討論與技術部落格,不該被視為同等證據。BenchLM 甚至指出,Claude Opus 4.7 的資料頁雖然已被追蹤,但因為還缺乏足夠非生成的公開 benchmark 覆蓋,所以暫時排除在公開 leaderboard 之外 [14]。這類註記比單一高分更值得看。
Claude Opus 4.7:coding 與代理式任務的證據最紮實
Claude Opus 4.7 是這四款模型中,公開證據最完整的一個。Anthropic 表示,Opus 4.7 在其內部 research-agent benchmark 六個模組中並列總分最高,分數為 0.715,並且在其測試模型中交出最一致的長上下文表現 [16]。這是官方內部測試,不能直接等同第三方獨立 benchmark,但它清楚說明 Anthropic 對 Opus 4.7 的定位:多步工作、長上下文與代理式任務。
外部訊號最明確的是 SWE-bench。Vals AI 在 2026 年 4 月 24 日更新的 SWE-bench 頁面中,將 Claude Opus 4.7 列為第一,分數為 82.00% [17]。Vellum 則報告 Opus 4.7 在 SWE-bench Verified 為 87.6%、SWE-bench Pro 為 64.3% [
20]。LMCouncil 也列出 Claude Opus 4.7 在 SWE-bench Verified 為 83.5% ± 1.7 [
9]。
正確讀法不是挑一個最高分當真理,而是承認 Claude 在多個軟體工程評測中都站在高位或領先區間,同時標明不同 benchmark、不同日期與不同方法可能造成差異 [17][
20][
38]。
在科學推理方面,Claude Opus 4.7 在 O-Mega、Vellum 與 TNW 的 GPQA Diamond 數字都是 94.2% [3][
12][
15]。不過,這項優勢不宜過度放大,因為 TNW 已提醒 frontier 模型在 GPQA Diamond 上差距很小,這個 benchmark 不足以單獨決定總冠軍 [
15]。
GPT-5.5:推理分數很強,但官方可追溯性較弱
GPT-5.5 的強項在一般推理。O-Mega 報告 GPT-5.5 在 MMLU 為 92.4%、GPQA Diamond 為 93.6%、ARC-AGI-2 為 85.0%、ARC-AGI-1 為 95.0% [3]。Vellum 也列出 GPT-5.5 在 GPQA Diamond 為 93.6%,在該表中低於 Claude Opus 4.7 的 94.2% [
12]。BenchLM 則把 GPT-5.5 放在高階模型行列:暫定 leaderboard 總分 89/100、112 個模型中排名第 5,並在 verified leaderboard 的 16 個模型中排名第 2 [
6]。
主要保留點是可追溯性。這次可引用資料中,GPT-5.5 的數字主要來自文章、彙整頁與 leaderboard,而沒有找到一份能與 Anthropic Opus 4.7 官方材料等量齊觀的 OpenAI 官方 benchmark card。Appwrite 稱 GPT-5.5 於 2026 年 4 月 23 日推出,Vals AI 也列出 openai/gpt-5.5 的 release date 為 2026 年 4 月 23 日,並給出 Vals Index accuracy 67.76% ± 1.79;但這些資料仍不能取代官方完整 benchmark 說明 [2][
11]。
因此,若要放進簡報,GPT-5.5 應該被定位為推理能力的一線競爭者,特別是 GPQA 與 ARC-AGI 數字很強;但若決策標準是公開證據同質、可追溯且可驗證,就不宜直接宣布它是整體勝者 [3][
6][
12]。
DeepSeek V4 / V4 Pro:值得測,但版本混用要特別小心
DeepSeek 的最大問題不是沒有亮點,而是版本標籤太容易混在一起。可引用資料裡同時出現 DeepSeek V4、DeepSeek V4 Pro、DeepSeek V4 Pro High;把其中一個版本的分數直接套到另一個版本,會讓比較失真 [25][
26][
27]。
Hugging Face 上有 DeepSeek-V4-Pro 的社群討論,列入 GPQA、GSM8K、HLE、MMLU-Pro、SWE-bench Pro、SWE-bench Verified、Terminal-Bench 2.0 等評測項目 [25]。BenchLM 則對 DeepSeek V4 Pro High 報告 Agentic 83.8/100、Coding 88.8/100、Knowledge 72.1/100 [
27]。NxCode 宣稱 DeepSeek V4 在 SWE-bench 達 81%,並在 100 萬 token Needle-in-a-Haystack 測試達 97%,但該來源也提醒,97% 這個長上下文數字需要獨立測試支持才更有說服力 [
26]。
Redreamality 提供另一個正面訊號:DeepSeek V4 在純 coding 指標上,LiveCodeBench 為 93.5、Codeforces 為 3206 [30]。但同一來源也總結,若是 SWE-bench Pro、Terminal-Bench 2.0 這類長時程代理式工作,封閉 frontier 模型仍然領先 [
30]。
實務上,DeepSeek V4/V4 Pro 很適合被放進內部 proof of concept,尤其是團隊重視技術控制、開放權重生態、本地部署或成本結構時。但就目前公開證據而言,它還沒有達到 Claude 在 SWE-bench 與官方多步任務資料上的同等穩固程度 [16][
17][
25][
27]。
Kimi K2.6:有訊號,但還不是完整比較對象
Kimi K2.6 不應被完全排除,但也不能被包裝成已經有同等資料覆蓋。LLM Stats 將 Kimi K2.6 列為 GPQA 0.91,WhatLLM 則把它放進 Quality Index 前十 [7][
21]。這代表它確實出現在部分榜單中,但不足以與 Claude Opus 4.7、GPT-5.5、DeepSeek V4/V4 Pro 做全面 benchmark 對照。
還有一個常見錯誤:用 Kimi K2.5 的成績替代 Kimi K2.6。Simon Willison 在 2026 年 2 月整理 SWE-bench Verified 更新時,提到的是 Kimi K2.5,而不是 Kimi K2.6 [8]。對嚴謹比較來說,這兩者不能互換。因此 Kimi K2.6 目前最合適的標籤是:資料不足,等待更多可比 benchmark。
依使用場景排序,會比總排名更有用
| 使用場景 | 建議模型 | 信心 | 理由 |
|---|---|---|---|
| 解真實 issue、coding agent | Claude Opus 4.7 | 高—中 | Vals AI 將其列為 SWE-bench 第一,分數 82.00%;Vellum 也顯示其在 SWE-bench Verified 與 SWE-bench Pro 表現強 [ |
| 多步 research-agent 工作 | Claude Opus 4.7 | 中 | Anthropic 報告內部 benchmark 為 0.715,並稱其長上下文表現最一致 [ |
| GPQA 類科學推理 | Claude Opus 4.7 或 GPT-5.5 | 中 | Claude 為 94.2%,GPT-5.5 為 93.6%;差距很小,且 GPQA 對 frontier 模型已相當擁擠 [ |
| 廣義推理能力 | GPT-5.5 | 中—低 | MMLU、GPQA、ARC-AGI 數字很強,但主要來自 O-Mega、Vellum、BenchLM 等第三方或彙整來源 [ |
| 開放、本地或高技術控制探索 | DeepSeek V4 / V4 Pro | 中—低 | Hugging Face、BenchLM、NxCode、Redreamality 都有訊號,但版本混用且仍需內部驗證 [ |
| 完整量化排名 | 暫不把 Kimi K2.6 當已驗證可比模型 | 低 | 目前只有 GPQA 0.91、Quality Index 前十等局部資料,缺多 benchmark 覆蓋 [ |
若要做成決策簡報,建議這樣講
最穩的簡報方式,是把性能與證據品質分開。第一頁放使用場景建議;第二頁放 benchmark 數字;第三頁專門放限制與方法論。這樣可以避免一張排行榜造成錯誤安全感。
核心訊息可以很簡潔:Claude Opus 4.7 是 coding 與代理式任務中公開證據最充分的領先者;GPT-5.5 是一般推理上最強的競爭者之一;DeepSeek V4/V4 Pro 是值得內測的技術型替代方案;Kimi K2.6 則仍缺可比資料。
方法論註記至少要寫三點。第一,不要把 SWE-bench、SWE-bench Verified、SWE-bench Pro 當成同一項測試,因為 SWE-bench Pro 被設計為更困難的長時程軟體工程 benchmark [38]。第二,不要把 MMLU 當主要決策依據,因為頂尖模型已經在 88% 以上擠成一團 [
1]。第三,每個數字都要標示來源類型:官方、leaderboard、彙整平台、社群評測或單方 claim。
最終判斷
如果目標是做一份證據站得住腳的 2026 模型比較,Claude Opus 4.7 應排在 coding 與代理式任務第一順位,因為它同時有 Anthropic 官方訊號、Vals AI SWE-bench 領先資料,以及 Vellum 對 SWE-bench Verified、SWE-bench Pro 的強勢數字 [16][
17][
20]。
GPT-5.5 應被視為推理能力的一線對手,尤其是 GPQA 與 ARC-AGI 數字亮眼;但目前可引用資料多為二手或彙整來源,結論要加上這層保留 [3][
6][
12]。DeepSeek V4/V4 Pro 值得內部測試,不宜直接宣布領先 [
25][
26][
27][
30]。Kimi K2.6 則暫時只能列為資料不足,等待更多跨 benchmark 的可比證據 [
7][
21]。




