如果你係為產品、工程團隊或者 coding agent 揀模型,第一個問題唔應該係「邊個最勁」,而係:邊啲 benchmark 真係同一把尺?
今次比較 GPT-5.5、Claude Opus 4.7、Kimi K2.6 同 DeepSeek V4,證據其實唔平均。GPT-5.5 同 Claude Opus 4.7 最乾淨,因為 OpenAI 公布 GPT-5.5 時,同一張表列出兩者在 SWE-Bench Pro 同 Terminal-Bench 2.0 嘅分數。[21] Kimi K2.6 就有 Hugging Face 模型頁描述,以及第三方文章列出 SWE-Bench 數字;DeepSeek V4 則喺本文可用來源入面未見足夠可核驗 benchmark,所以唔硬塞入數值排名。[
32][
34]
基準測試比較表
「—」代表本文可用來源未有可引用數字,唔代表模型做唔到相關任務。唔同來源、唔同測試 harness、唔同設定下嘅分數,唔應該直接加埋變成一個總分榜。
| 模型 | SWE-Bench Pro | SWE-Bench Verified | Terminal-Bench 2.0 | 其他可見資料 | 證據等級與解讀 |
|---|---|---|---|---|---|
| GPT-5.5 | 58.6% [ | — | 82.7% [ | Expert-SWE(Internal)73.1%;OpenAI 註記其他實驗室在此 eval 上見到 memorization evidence。[ | A-:SWE-Bench Pro 同 Terminal-Bench 2.0 來自 OpenAI 同一張比較表,可同 Claude Opus 4.7 直接對照;Expert-SWE 屬 internal eval,要保守睇。[ |
| Claude Opus 4.7 | 64.3% [ | 87.6% [ | 69.4% [ | CursorBench 70%。[ | A-/B:SWE-Bench Pro 同 Terminal-Bench 2.0 可同 GPT-5.5 同表比較;SWE-Bench Verified 同 CursorBench 主要來自第三方整理,Verdent 將前者標示為 Anthropic-conducted、後者標示為 partner eval。[ |
| Kimi K2.6 | 58.6% [ | 80.2% [ | — | Hugging Face 頁面將 Kimi K2.6 描述為 open-source、native multimodal agentic model。[ | B(有限):SWE-Bench 分數來自第三方文章;本文來源未見到可同 GPT-5.5、Claude Opus 4.7 同表交叉驗證嘅官方完整 benchmark。[ |
| DeepSeek V4 | — | — | — | — | C(資料不足):本文可用來源未有可引用 DeepSeek V4 benchmark,因此唔做數值排名。 |
最值得睇邊幾個 benchmark?
SWE-Bench Pro:Claude Opus 4.7 領先 GPT-5.5
喺 OpenAI 嘅 GPT-5.5 評測表,Claude Opus 4.7 在 SWE-Bench Pro 係 64.3%,高過 GPT-5.5 嘅 58.6%。[21] 呢組係今次最值得直接比較嘅數據之一,因為兩個模型出自同一張 OpenAI 表。
Kimi K2.6 亦被 Kilo AI 第三方文章列為 SWE-Bench Pro 58.6%,表面上接近 GPT-5.5;不過呢個數字未同 GPT-5.5、Claude Opus 4.7 出現喺同一張可引用交叉表,所以只適合作參考訊號,唔宜當成嚴格勝負。[34]
Terminal-Bench 2.0:GPT-5.5 領先 Claude Opus 4.7
同一張 OpenAI 評測表顯示,GPT-5.5 在 Terminal-Bench 2.0 係 82.7%,Claude Opus 4.7 係 69.4%。[21] 如果你嘅場景偏向終端機操作、命令列工作流,或者 coding agent 真正落手執行任務,GPT-5.5 應該優先入測試名單。
但要留意,本文來源未有 Kimi K2.6 或 DeepSeek V4 在 Terminal-Bench 2.0 嘅可引用分數,所以呢一欄唔能夠排四模型完整名次。
SWE-Bench Verified:Claude 數字高過 Kimi,但口徑唔同
Claude Opus 4.7 的 SWE-Bench Verified 87.6% 見於第三方 Claude Opus 4.7 評測整理;Verdent 將呢個數字標示為 Anthropic-conducted,並提到有 memorization screens applied。[4][
6] Kimi K2.6 的 SWE-Bench Verified 80.2% 則來自 Kilo AI 第三方文章。[
34]
兩組數字都有參考價值,但唔似 OpenAI 同表入面嘅 SWE-Bench Pro 同 Terminal-Bench 2.0 咁適合直接硬比。[21]
Expert-SWE:只可當內部訊號,唔適合做總排名
GPT-5.5 在 Expert-SWE(Internal)為 73.1%,但 OpenAI 自己將其標示為 internal eval,並註記其他實驗室在此 eval 上見到 memorization evidence。[21] 所以 Expert-SWE 可以話係 OpenAI 內部能力訊號,但唔適合作為四模型總排名嘅核心依據。
實際揀模型:按任務揀,唔好只望總分
如果你處理嘅係 GitHub issue 修復、multi-file bug 或複雜軟件工程任務,Claude Opus 4.7 值得先試。 喺最可直接對照嘅 SWE-Bench Pro 數據中,Claude Opus 4.7 以 64.3% 高過 GPT-5.5 嘅 58.6%。[21] Vellum 亦將呢組差距放喺 real GitHub issue resolution 嘅語境下解讀。[
24]
如果你嘅工作流似終端機操作型 coding agent,GPT-5.5 值得先試。 GPT-5.5 在 Terminal-Bench 2.0 的可引用分數係 82.7%,高過 Claude Opus 4.7 的 69.4%。[21] 呢點唔代表 GPT-5.5 在所有 coding 任務都較好,只代表它喺呢個特定 benchmark 有明確優勢。
如果你需要開放模型候選,Kimi K2.6 可以放入 shortlist。 Hugging Face 將 Kimi K2.6 描述為 open-source、native multimodal agentic model;Kilo AI 第三方文章列出它在 SWE-Bench Pro 58.6%、SWE-Bench Verified 80.2%。[32][
34] 但因為本文來源未見到同 GPT-5.5、Claude Opus 4.7 同表嘅官方交叉比較,最好仍然用你自己嘅任務集重測。
如果你正在評估 DeepSeek V4,最穩陣係等更多可引用 benchmark,或者自己重跑。 本文可用來源未有 DeepSeek V4 嘅可核驗分數;硬將佢排入榜,反而比留白更容易誤導。
點解本文唔頒「總冠軍」?
LLM benchmark 最易出事嘅位,就係將唔同來源、唔同測試設定、唔同任務類型嘅分數撈埋。今次可以分三層睇:
- 同表共享 benchmark:例如 GPT-5.5 同 Claude Opus 4.7 喺 OpenAI 表中嘅 SWE-Bench Pro、Terminal-Bench 2.0,係今次最適合直接對照嘅資料。[
21]
- 第三方整理嘅 vendor 或 partner eval:例如 Claude Opus 4.7 嘅 SWE-Bench Verified 同 CursorBench,仍有參考價值,但要留意來源同測試口徑。[
4][
6]
- 缺少交叉驗證或可引用數字不足:例如 Kimi K2.6 目前主要靠第三方文章列出 SWE-Bench 數字;DeepSeek V4 喺本文來源入面未有足夠 benchmark 可引用。[
32][
34]
按呢個標準,結論其實幾清楚:Claude Opus 4.7 在 SWE-Bench Pro 領先 GPT-5.5;GPT-5.5 在 Terminal-Bench 2.0 領先 Claude Opus 4.7;Kimi K2.6 的 SWE-Bench 數字有競爭力,但證據等級較低;DeepSeek V4 暫時應列為資料不足。[21][
32][
34]
真正落地選型,唔應該停喺 benchmark 表。最好用呢張表先縮窄 shortlist,下一步再用你自己嘅 repo 類型、程式語言、測試環境、工具調用、延遲、成本同失敗恢復方式重測。咁得出嚟嘅結果,會比一個「四模型總排名」更貼近實際產品表現。




