如果你係產品或工程團隊要揀模型,最危險嘅做法係只問:邊個最勁?公開跑分睇落好多,但 GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 並未全部喺同一套 prompt、工具權限、推理設定同評分器下完整對打。
比較穩陣嘅讀法係:先睇任務,再揀候選模型。GPT-5.5 同 Claude Opus 4.7 有較多同表比較;Kimi K2.6 的分數混合了模型卡及個別 harness;DeepSeek V4 則缺少多個主要編程基準測試的共通數字 [1][
2][
5][
6]。
先睇結論:每類工作先試邊個?
- 終端機型代理編程:可以先試 GPT-5.5。OpenAI 指 GPT-5.5 在 Terminal-Bench 2.0 達 82.7%;公開比較表中,Claude Opus 4.7 為 69.4%,Kimi K2.6 為 66.7% [
19][
8][
13][
6]。
- 真實 GitHub issue 修復、代碼維護:Claude Opus 4.7 係較強的一線候選。公開資料報告其 SWE-Bench Pro 為 64.3%、SWE-Bench Verified 為 87.6%,高於 GPT-5.5 在 SWE-Bench Pro 的 58.6% [
27][
19]。
- 長上下文、多模態輸入:Kimi K2.6 值得放入候選名單。Kimi K2.6 被介紹為支援文字、圖片、影片輸入,並有 256k context route [
7]。
- 成本敏感的大量 API 呼叫:DeepSeek V4 價格較搶眼。Mashable 整理的 API 價格顯示,每 100 萬 tokens,DeepSeek V4 輸入 US$1.74、輸出 US$3.48;GPT-5.5 為輸入 US$5、輸出 US$30;Claude Opus 4.7 為輸入 US$5、輸出 US$25 [
3]。
核心跑分對照表
下表入面的「—」只代表在提供的公開來源中,暫時未見可直接對應的同名基準測試數字;不代表該模型做不到相關工作。
| 基準測試 | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4 | 點樣讀 |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% [ | 69.4% [ | 66.7% [ | — | 終端機、命令列工作流方面,GPT-5.5 的公開值最高。 |
| SWE-Bench Pro | 58.6% [ | 64.3% [ | 58.6% [ | — | 代碼修復、GitHub issue 解決方面,Claude Opus 4.7 領先。 |
| SWE-Bench Verified | — | 87.6% [ | 80.2% [ | — | 以提供來源計,Claude Opus 4.7 同 Kimi K2.6 有可見數字。 |
| GPQA Diamond | 93.6% [ | 94.2% [ | — | — | GPT-5.5 同 Claude Opus 4.7 非常接近,公開值 Claude 略高。 |
| HLE with tools | 52.2% [ | 54.7% [ | 54.0% [ | — | Claude 同 Kimi 數字較高,但 Kimi 可能屬另一套比較條件 [ |
| BrowseComp | 84.4% [ | 79.3% [ | — | — | 網頁瀏覽、搜尋型評測中,GPT-5.5 的公開值較高。 |
| OSWorld-Verified | 78.7% [ | 78.0% [ | — | — | 兩者差距細。 |
| MCP Atlas | 75.3% [ | 79.1% [ | — | — | MCP、工具整合型評測中,Claude Opus 4.7 較高。 |
GPT-5.5:終端機型代理編程的強候選
OpenAI 表示,GPT-5.5 在 Terminal-Bench 2.0 達 82.7%,在 SWE-Bench Pro 達 58.6% [19]。按 OpenAI 的說法,Terminal-Bench 2.0 測試的是需要規劃、反覆嘗試、協調工具的複雜命令列工作流;SWE-Bench Pro 則評估模型解決真實 GitHub issue 的能力 [
19]。
所以,如果你的產品工作流涉及 sandbox 執行、shell 指令、CI 重現、建立及修改檔案,甚至要模型長時間喺終端機入面自己摸索,GPT-5.5 值得優先測試。不過,SWE-Bench Pro 方面,Claude Opus 4.7 的 64.3% 高於 GPT-5.5 的 58.6%;因此唔應直接推論「所有編程工作都係 GPT-5.5 贏」[19][
27]。
Claude Opus 4.7:較適合代碼修補、審核型工作
Claude Opus 4.7 被報告在 SWE-Bench Pro 達 64.3%,SWE-Bench Verified 達 87.6% [27]。DataCamp 亦整理指,Opus 4.7 被放到 14 個基準測試中評估,範圍包括 coding、reasoning、工具使用、電腦使用同視覺推理 [
27]。
同 GPT-5.5 的共通比較入面,Claude Opus 4.7 在 GPQA Diamond 為 94.2% 對 GPT-5.5 的 93.6%,在 MCP Atlas 為 79.1% 對 GPT-5.5 的 75.3% [8][
13]。相反,Terminal-Bench 2.0 同 BrowseComp 則係 GPT-5.5 的公開值較高 [
8][
13][
19]。
換句話講,Claude Opus 4.7 未必係所有終端機自動化場景的絕對王者;但如果任務係修 issue、改 code、review、重構、檢查邏輯一致性,它應該係第一批要試的模型。
Kimi K2.6:長多模態輸入吸引,但要睇清跑分條件
Kimi K2.6 被列出 SWE-Bench Pro 58.6%、SWE-Bench Verified 80.2%;另有指南列出 Terminal-Bench 2.0 66.7%、HLE with tools 54.0% [1][
6]。不過,同一份指南說明 K2.6 數字來自 Moonshot AI 官方模型卡,並對 SWE-Bench Pro 加上 Moonshot in-house harness 的註腳 [
6]。
因此,即使 Kimi K2.6 的 SWE-Bench Pro 58.6% 在數字上同 GPT-5.5 的 58.6% 一樣,都唔應直接當成「完全同條件打和」[1][
6][
19]。Kimi K2.6 更值得留意的,是它被介紹為支援文字、圖片、影片輸入,以及 256k context route;如果你的應用要處理好長文件、截圖、影片或跨模態材料,值得單獨做實測 [
7]。
DeepSeek V4:價錢有吸引力,但準確性要自己驗證
在今次表格涉及的 Terminal-Bench、SWE-Bench Pro、SWE-Bench Verified、GPQA Diamond 等項目上,提供來源內未有足夠公開數字可把 DeepSeek V4 直接放入同一行比較。另一方面,Artificial Analysis 指 DeepSeek V4 Pro Max 在 AA-Omniscience 得分為 -10,較 V3.2 改善 11 分;V4 Flash Max 則為 -23 [2]。同一來源亦報告 V4 Pro 及 V4 Flash 的幻覺率分別為 94% 及 96%,並解讀為模型在不知道答案時幾乎仍會作答 [
2]。
架構同成本方面,DeepSeek V4 仍有值得研究的地方。DataCamp 指 DeepSeek V4 使用 Mixture of Experts 架構;Pro 模型總參數為 1.6 兆、啟用參數為 490 億,Flash 模型總參數為 2,840 億、啟用參數為 130 億 [4]。Mashable 整理的 API 價格亦顯示,DeepSeek V4 較 GPT-5.5 同 Claude Opus 4.7 便宜 [
3]。
所以,DeepSeek V4 較適合放入成本敏感的大量處理、內部可驗證流程、開放權重路線評估之中。但如果你的產品重視正確性,就要配合自家評測、後處理、失敗偵測同人工抽查;高幻覺率報告同共通跑分空白都唔應忽視 [2][
3][
4]。
使用場景選擇指南
| 使用場景 | 優先測試模型 | 主要理由 |
|---|---|---|
| 長時間終端機自動化、shell-based agent、CI 重現 | GPT-5.5 | Terminal-Bench 2.0 公開數字為 GPT-5.5 82.7%、Claude Opus 4.7 69.4%、Kimi K2.6 66.7% [ |
| 真實 GitHub issue 解決、代碼修補、SWE-Bench 類工作 | Claude Opus 4.7 | Claude Opus 4.7 被報告 SWE-Bench Pro 64.3%、SWE-Bench Verified 87.6% [ |
| 網頁瀏覽、搜尋型任務 | GPT-5.5 | BrowseComp 報告 GPT-5.5 84.4%、Claude Opus 4.7 79.3% [ |
| MCP、工具整合型任務 | Claude Opus 4.7 | MCP Atlas 報告 Claude Opus 4.7 79.1%、GPT-5.5 75.3% [ |
| 長多模態上下文 | Kimi K2.6 | Kimi K2.6 被介紹為支援文字、圖片、影片輸入,以及 256k context route [ |
| 成本敏感的大量 API 呼叫 | DeepSeek V4 | Mashable 價格顯示 DeepSeek V4 token 成本低於 GPT-5.5、Claude Opus 4.7;但要同時留意 Artificial Analysis 的高幻覺率報告 [ |
點解唔應急住宣布總冠軍?
第一,提供來源內未有足夠證據顯示四個模型在同一 prompt、同一工具存取、同一推理預算、同一評分器下完成完整獨立比較。GPT-5.5 同 Claude Opus 4.7 的共同比較相對多;Kimi K2.6 混合模型卡及 in-house harness 數字;DeepSeek V4 則在多個共通基準測試行入面留白 [1][
2][
5][
6]。
第二,同一個 benchmark 名稱,實際執行條件都可以唔同。有整理資料指出,GPT-5.5 同 Claude Opus 4.7 的公開分數在形式上可比較,但不代表方法論完全一致 [5]。Anthropic 亦披露,其 Terminal-Bench 2.0 評估使用 Terminus-2 harness,並有特定資源條件 [
31]。
第三,跑分只係產品品質的一部分。真正導入時,除了正確率,仲要睇失敗模式、幻覺率、延遲、成本、工具呼叫穩定性、安全政策同 log 可重現性。ExplainX 亦提醒,leaderboard 定義、prompt 同工具政策都會令分數變動;公開跑分應視為快照,而唔係取代自家 eval harness [28]。
最後點揀?
以現有公開證據計,較務實的策略係:終端機型代理編程先試 GPT-5.5,SWE-Bench 類代碼修補先試 Claude Opus 4.7,長多模態上下文把 Kimi K2.6 放入候選,成本敏感的大量呼叫評估 DeepSeek V4 [19][
27][
7][
3]。
但如果你要把模型放入正式產品,最穩陣仍然係用自己真實 prompt、真實資料、真實工具權限做小型回歸測試。公開跑分可以幫你縮窄 shortlist;最後拍板,應該交畀你自己的任務表現、成本同風險要求 [5][
28][
31]。




