基準圖表看起來像一場排名賽,但這組模型其實不能只問誰第一。最接近同場比較的資料,涵蓋 GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7 與 DeepSeek-V4-Pro-Max;Kimi K2.6 則來自另外的 Kimi 發布報導、模型卡與排行榜資料 [1][
6][
24]。因此,更實用的問題不是哪個模型通吃,而是你的工作負載該先測哪一個。
先說清楚命名:本文把 DeepSeek V4 的可比版本寫作 DeepSeek-V4-Pro-Max,因為引用資料中列出基準測試與成本欄位的是這個變體 [18][
24]。同時,GPT-5.5 Pro 會與基本版 GPT-5.5 分開看;只要來源分開列分數,就不把兩者混在一起 [
24]。
先看結論:不同工作負載該先測誰?
- **終端機與命令列型 coding agent:**GPT-5.5 在共享比較中的 Terminal-Bench 2.0 分數最高,達 82.7% [
24]。
- **軟體修復與工程任務:**Claude Opus 4.7 在引用資料中的 SWE-Bench Pro 達 64.3%,SWE-Bench Verified 達 87.6%,是這組模型裡最強的軟體修復訊號 [
18][
24]。
- **不使用工具的高難推理:**Claude Opus 4.7 在共享比較中的 GPQA Diamond 與 Humanity’s Last Exam no tools 兩列領先 [
24]。
- **工具輔助推理與瀏覽:**GPT-5.5 Pro 在有列出 Pro 版本的項目中,Humanity’s Last Exam with tools 達 57.2%,BrowseComp 達 90.1% [
24]。
- **開放權重部署:**Kimi K2.6 是引用資料中最明確的開放權重候選,被描述為 1T 參數 MoE 模型、32B active parameters,並支援 256K context window [
1]。
- **重視推論成本的託管服務:**DeepSeek-V4-Pro-Max 值得先驗證;LLM Stats 列出它具 100 萬 token 上下文、SWE-Bench Verified 80.6%,成本欄位為 $1.74/$3.48 [
18]。
基準測試對照表
表中的破折號代表引用資料中沒有找到該模型的對應分數,不代表零分。GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7 與 DeepSeek-V4-Pro-Max 多數來自同一份共享比較;Kimi K2.6 的數字則來自 Kimi 相關來源 [1][
6][
24]。
| 基準測試 | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | Kimi K2.6 | DeepSeek-V4-Pro-Max |
|---|---|---|---|---|---|
| GPQA Diamond | 93.6% [ | — | 94.2% [ | 約 91% [ | 90.1% [ |
| Humanity’s Last Exam,no tools | 41.4% [ | 43.1% [ | 46.9% [ | — | 37.7% [ |
| Humanity’s Last Exam,with tools | 52.2% [ | 57.2% [ | 54.7% [ | 54.0% [ | 48.2% [ |
| Terminal-Bench 2.0 | 82.7% [ | — | 69.4% [ | 66.7% [ | 67.9% [ |
| SWE-Bench Pro | 58.6% [ | — | 64.3% [ | 58.6% [ | 55.4% [ |
| BrowseComp | 84.4% [ | 90.1% [ | 79.3% [ | 83.2% [ | 83.4% [ |
| MCP Atlas/MCPAtlas Public | 75.3% [ | — | 79.1% [ | — | 73.6% [ |
| SWE-Bench Verified | — | — | 87.6% [ | 80.2% [ | 80.6% [ |
選型速查
| 優先條件 | 建議先測 | 理由 |
|---|---|---|
| 終端式 coding agent | GPT-5.5 | 共享比較中 Terminal-Bench 2.0 最高,為 82.7% [ |
| 軟體工程修復 | Claude Opus 4.7 | 在引用資料中的 SWE-Bench Pro 與 SWE-Bench Verified 皆領先這組主要候選 [ |
| 不靠工具的高難推理 | Claude Opus 4.7 | 共享比較中 GPQA Diamond 與 Humanity’s Last Exam no tools 領先 [ |
| 工具輔助推理或瀏覽 | GPT-5.5 Pro | 在有分開列出 Pro 的項目中,Humanity’s Last Exam with tools 與 BrowseComp 最高 [ |
| 開放權重部署 | Kimi K2.6 | 被描述為開放權重 1T 參數 MoE 模型,Hugging Face 模型卡也列出強勁的 coding benchmark 數字 [ |
| 成本敏感的託管推論 | DeepSeek-V4-Pro-Max | LLM Stats 列出 100 萬 token 上下文、SWE-Bench Verified 80.6%,且同榜成本欄位低於 Claude Opus 4.7 [ |
| 長上下文需求 | GPT-5.5、Claude Opus 4.7 或 DeepSeek-V4-Pro-Max | 引用資料列出這三者為 100 萬 token 上下文;Kimi K2.6 則約 256K 至 262K [ |
各模型重點
GPT-5.5
OpenAI 將 GPT-5.5 定位為面向複雜任務的模型,包括 coding、研究與資料分析 [38]。在共享比較中,GPT-5.5 的 Terminal-Bench 2.0 為 82.7%,高於 Claude Opus 4.7 的 69.4% 與 DeepSeek-V4-Pro-Max 的 67.9% [
24]。同一表中,它也在 GPQA Diamond 拿到 93.6%、SWE-Bench Pro 拿到 58.6%、BrowseComp 拿到 84.4% [
24]。
要注意的是,GPT-5.5 Pro 是另一個比較點。共享表中,GPT-5.5 Pro 的 BrowseComp 為 90.1%,Humanity’s Last Exam with tools 為 57.2%;這些分數不應直接併入基本版 GPT-5.5,特別是在比較成本、延遲或推理設定時 [24]。
採購面可以把資料當成訊號而非報價:BenchLM 列出 GPT-5.5 具 100 萬 token context window;另有價格報導列出 GPT-5.5 為每百萬 input token $5、每百萬 output token $30 [27][
36]。正式編列預算前,仍應以供應商即時價格為準。
Claude Opus 4.7
Claude Opus 4.7 在這組模型中的軟體修復訊號最強。LLM Stats 列出它在 SWE-Bench Verified 達 87.6%,共享比較則列出它在 SWE-Bench Pro 達 64.3% [18][
24]。同一共享比較中,它也在 GPQA Diamond 達 94.2%、Humanity’s Last Exam no tools 達 46.9%、MCP Atlas 達 79.1%,均為該表領先結果 [
24]。
LLM Stats 另列出 Claude Opus 4.7 具 100 萬 token context window,價格為每百萬 token $5/$25 [16]。不過,可比性仍要小心:Anthropic 說明部分 benchmark 使用內部實作或更新後的 harness 參數,有些分數不能與公開排行榜直接比較 [
17]。
Kimi K2.6
Kimi K2.6 是引用資料中最清楚的開放權重選項。發布報導描述它為開放權重 1T 參數 MoE 模型,具 32B active parameters、384 experts、原生多模態、INT4 quantization 與 256K context window [1]。其 Hugging Face 模型卡列出 SWE-Bench Verified 80.2%、SWE-Bench Pro 58.6%、Terminal-Bench 2.0 66.7%,以及 LiveCodeBench v6 89.6 [
6]。
同一發布報導還列出 Kimi K2.6 在 Humanity’s Last Exam with tools 為 54.0,BrowseComp 為 83.2 [1]。LLM Stats 則列出 Kimi K2.6 具 262K context、價格欄位為 $0.95/$4.00,並標示為 Open Source [
11]。限制在於:Kimi 的分數不是來自 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 那張同場表,所以接近的分差最好視為測試線索,而非定案勝負 [
1][
6][
24]。
DeepSeek-V4-Pro-Max
DeepSeek-V4-Pro-Max 更像是性價比候選,而不是全面基準冠軍。LLM Stats 列出它的 size 為 1.6T、context 為 100 萬 token、SWE-Bench Verified 為 80.6%,成本欄位為 $1.74/$3.48 [18]。在共享比較中,它的 GPQA Diamond 為 90.1%、Humanity’s Last Exam no tools 為 37.7%、Humanity’s Last Exam with tools 為 48.2%、Terminal-Bench 2.0 為 67.9%、SWE-Bench Pro 為 55.4%、BrowseComp 為 83.4%、MCP Atlas 為 73.6% [
24]。
這些數字代表 DeepSeek-V4-Pro-Max 很值得放進成本敏感工作負載的候選名單。但同一共享表中,多數列仍由 GPT-5.5、GPT-5.5 Pro 或 Claude Opus 4.7 領先;若要把它用來替代高價模型,最好先用自己的任務驗證品質、穩定性與失敗型態 [24]。
價格與上下文:只能當採購訊號
價格與 context window 不一定由同一來源或同一供應商報告,下表適合做初步篩選,不適合當最終報價。
| 模型 | 引用資料中的 context 與價格訊號 | 實務解讀 |
|---|---|---|
| GPT-5.5 | BenchLM 列出 100 萬 token context;一份價格報導列出每百萬 input token $5、output token $30 [ | 高階託管選項;正式採購前要查即時價格。 |
| Claude Opus 4.7 | LLM Stats 列出 100 萬 token context,價格為每百萬 token $5/$25 [ | 適合 coding、推理與長上下文任務的高階選項。 |
| Kimi K2.6 | 發布報導列出 256K context;LLM Stats 列出 262K context 與 $0.95/$4.00 價格欄位 [ | 開放權重部署吸引力高;託管價格會因平台而異。 |
| DeepSeek-V4-Pro-Max | LLM Stats 列出 100 萬 token context、1.6T size、SWE-Bench Verified 80.6% 與 $1.74/$3.48 成本欄位 [ | 若你的工作負載品質可接受,是強性價比候選。 |
為什麼排名會互相打架?
不同 benchmark 測的是不同能力。GPQA Diamond 與 Humanity’s Last Exam 偏向高難推理;Terminal-Bench 2.0 與 SWE-Bench 系列偏向 coding 與代理式軟體工程;BrowseComp 則在共享比較中衡量瀏覽與檢索風格的表現 [24]。一個模型在某列領先、另一列落後,並不矛盾。
就算名稱相同,benchmark 也可能因實作而不同。LLM Stats 列出 Claude Opus 4.7 的 SWE-Bench Verified 為 87.6%,LMCouncil 則在其設定下列為 83.5% ± 1.7 [18][
30]。Anthropic 也說明部分結果使用內部實作或更新後 harness 參數,限制了與公開排行榜的直接可比性 [
17]。
所以,一兩個百分點的差距不應單獨決定正式上線。公開基準測試適合幫你縮小候選名單;真正的採用決策,仍應看自己的任務。
實測時該怎麼做?
正式導入前,建議把前兩到三個候選模型放到同一套內部測試裡。
- 用真實 prompt、檔案與 repository。 公開 benchmark 很難覆蓋你的程式碼庫、文件、內規與使用者行為。
- 工具環境要對齊。 coding agent 有沒有 terminal、瀏覽器、檢索、repository context 或內部 API,結果可能差很多。
- 用同樣設定量成本與延遲。 Pro 模式、更高 effort setting 或更長輸出,都可能改變品質、token 使用量與等待時間。
- 人工檢查失敗案例。 對 coding 任務來說,只看是否通過測試不夠,還要看 diff 品質、可維護性、安全性退化與幻覺依賴。
- 至少放一個低成本挑戰者。 如果你在意開放權重或推論成本,Kimi K2.6 與 DeepSeek-V4-Pro-Max 都值得進入測試組 [
1][
18]。
最後怎麼選?
如果你要高階閉源模型的短名單,先把 GPT-5.5 與 Claude Opus 4.7 並排測:GPT-5.5 在引用資料中擁有最強 Terminal-Bench 2.0 結果,Claude Opus 4.7 則在 SWE-Bench Pro 與 SWE-Bench Verified 訊號最強 [18][
24]。如果你需要開放權重,先看 Kimi K2.6 [
1][
6]。如果成本是硬限制,把 DeepSeek-V4-Pro-Max 放進評估,但不要只因價格就把它視為高價模型的即插即用替代品;先用你的任務驗證 [
18][
24]。




