想比較 GPT-5.5、Claude Opus 4.7、Kimi K2.6 和 DeepSeek V4,最重要的不是把四個模型硬排成一個榜單,而是先問:哪些分數真的能同口徑比較?
本文把「可直接對照的 benchmark」和「來源可靠度」分開。就可引用來源而言,GPT-5.5 與 Claude Opus 4.7 的比較最乾淨,因為 OpenAI 的 GPT-5.5 評測表同時列出兩者在 SWE-Bench Pro 與 Terminal-Bench 2.0 的分數。[21] Kimi K2.6 目前可引用的是 Hugging Face 模型頁描述與第三方文章列出的 SWE-Bench 數字;DeepSeek V4 則在本文可用來源中缺少足夠可核驗 benchmark,因此不放入數值排名。[
32][
34]
基準測試比較表
表中的「—」代表本文可用來源沒有可引用數字,不代表模型不能完成該類任務。不同來源、不同 harness、不同測試條件下的分數,不應直接加總成單一總排名。
| 模型 | SWE-Bench Pro | SWE-Bench Verified | Terminal-Bench 2.0 | 其他可見資料 | 證據等級與解讀 |
|---|---|---|---|---|---|
| GPT-5.5 | 58.6% [ | — | 82.7% [ | Expert-SWE(Internal)73.1%;OpenAI 註記其他實驗室在此 eval 上看到 memorization evidence。[ | A-:SWE-Bench Pro 與 Terminal-Bench 2.0 來自 OpenAI 同一張比較表,可與 Claude Opus 4.7 直接對照;Expert-SWE 是 internal eval,應保守解讀。[ |
| Claude Opus 4.7 | 64.3% [ | 87.6% [ | 69.4% [ | CursorBench 70%。[ | A-/B:SWE-Bench Pro 與 Terminal-Bench 2.0 可與 GPT-5.5 同表比較;SWE-Bench Verified 與 CursorBench 在本文來源中主要來自第三方整理,其中 Verdent 將前者標示為 Anthropic-conducted、後者標示為 partner eval。[ |
| Kimi K2.6 | 58.6% [ | 80.2% [ | — | Hugging Face 頁面將 Kimi K2.6 描述為 open-source、native multimodal agentic model。[ | B(有限):SWE-Bench 分數來自第三方文章;本文來源中沒有看到可與 GPT-5.5、Claude Opus 4.7 同表交叉驗證的官方完整 benchmark。[ |
| DeepSeek V4 | — | — | — | — | C(資料不足):本文可用來源沒有可引用 DeepSeek V4 benchmark,因此不做數值排名。 |
哪些 benchmark 最值得看?
SWE-Bench Pro:Claude Opus 4.7 領先 GPT-5.5
在 OpenAI 的 GPT-5.5 評測表中,Claude Opus 4.7 的 SWE-Bench Pro 分數是 64.3%,高於 GPT-5.5 的 58.6%。[21] 這是本文最可靠的直接比較之一,因為兩個模型出現在同一張 OpenAI 表中。
Kimi K2.6 也被 Kilo AI 的第三方文章列為 SWE-Bench Pro 58.6%,看起來接近 GPT-5.5;但這個數字沒有和 GPT-5.5、Claude Opus 4.7 出現在同一張可引用交叉表中,因此只能視為參考訊號,不能視為嚴格同口徑勝負。[34]
Terminal-Bench 2.0:GPT-5.5 領先 Claude Opus 4.7
同一張 OpenAI 評測表中,GPT-5.5 在 Terminal-Bench 2.0 為 82.7%,Claude Opus 4.7 為 69.4%。[21] 這表示如果你的場景更接近終端操作、命令列工作流或 coding agent 的執行環境,GPT-5.5 值得優先進入測試名單。
不過,本文來源沒有 Kimi K2.6 或 DeepSeek V4 在 Terminal-Bench 2.0 的可引用分數,因此不能把四個模型放在這一欄做完整排名。
SWE-Bench Verified:Claude Opus 4.7 高於 Kimi K2.6,但來源口徑不同
Claude Opus 4.7 的 SWE-Bench Verified 87.6% 出現在第三方 Claude Opus 4.7 評測整理中;Verdent 的整理將這個數字標示為 Anthropic-conducted,並提到 memorization screens applied。[4][
6] Kimi K2.6 的 SWE-Bench Verified 80.2% 則來自 Kilo AI 的第三方文章。[
34]
這兩個數字都有參考價值,但不像 OpenAI 同表中的 SWE-Bench Pro 與 Terminal-Bench 2.0 那樣適合直接嚴格對比。[21]
Expert-SWE:不適合作為總排名依據
GPT-5.5 在 Expert-SWE(Internal)為 73.1%,但 OpenAI 自己將其標為 internal eval,並註記其他實驗室在此 eval 上看到 memorization evidence。[21] 因此,Expert-SWE 可以作為 OpenAI 內部能力訊號,但不適合拿來當作四模型總排名的核心依據。
產品選型:依任務選模型,而不是只看總分
如果你的產品場景接近 GitHub issue 修復或複雜軟體工程任務,Claude Opus 4.7 值得優先測。 在本文最可直接對照的 SWE-Bench Pro 數據中,Claude Opus 4.7 以 64.3% 高於 GPT-5.5 的 58.6%。[21] Vellum 也將這組比較放在 real GitHub issue resolution 的語境中解讀。[
24]
如果你的工作流更接近終端操作型 coding agent,GPT-5.5 值得優先測。 GPT-5.5 在 Terminal-Bench 2.0 的可引用分數是 82.7%,高於 Claude Opus 4.7 的 69.4%。[21] 這不代表 GPT-5.5 在所有 coding 任務都更好,但表示它在這個特定 benchmark 上有明確優勢。
如果你需要開放模型候選,Kimi K2.6 可以進 shortlist。 Hugging Face 頁面將 Kimi K2.6 描述為 open-source、native multimodal agentic model;Kilo AI 第三方文章列出它在 SWE-Bench Pro 58.6%、SWE-Bench Verified 80.2%。[32][
34] 但在本文來源中,這些分數沒有與 GPT-5.5、Claude Opus 4.7 出現在同一張官方交叉表,因此最好用自己的任務集再測一次。
如果你正在評估 DeepSeek V4,最安全的做法是等待可引用 benchmark 或自行重測。 本文可用來源沒有 DeepSeek V4 的可核驗分數;把它強行排入榜單,反而會比留白更容易誤導。
為什麼本文不給「總冠軍」
LLM benchmark 比較最容易出錯的地方,是把不同來源、不同測試條件、不同任務類型的數字混在一起。本文採用三層證據來看:
- 同表共享 benchmark:例如 GPT-5.5 與 Claude Opus 4.7 在 OpenAI 表中的 SWE-Bench Pro 與 Terminal-Bench 2.0,這是本文最適合直接對照的資料。[
21]
- 第三方整理的 vendor 或 partner eval:例如 Claude Opus 4.7 的 SWE-Bench Verified 與 CursorBench,仍有參考價值,但要注意來源與測試口徑。[
4][
6]
- 缺少交叉驗證或缺少可引用數字的資料:例如 Kimi K2.6 目前主要依賴第三方文章列出的 SWE-Bench 數字,而 DeepSeek V4 在本文來源中沒有足夠可引用 benchmark。[
32][
34]
按這個標準,結論很清楚:Claude Opus 4.7 在 SWE-Bench Pro 領先 GPT-5.5,GPT-5.5 在 Terminal-Bench 2.0 領先 Claude Opus 4.7;Kimi K2.6 的 SWE-Bench 數字有競爭力但證據等級較低;DeepSeek V4 目前應列為資料不足。[21][
32][
34]
真正的模型選型不應停在 benchmark 表格。把這張表當作 shortlist 依據後,下一步應該用你的實際任務集重跑:包含 repo 類型、程式語言、測試環境、工具調用、延遲、成本與失敗恢復方式。這樣得到的結果,才會比「四模型總排名」更接近產品中的真實表現。




