睇 AI 模型跑分,好容易變成一場賽馬:邊個高 1、2 個百分點就當贏。但今次 GPT-5.5、Claude Opus 4.7、Kimi K2.6 同 DeepSeek V4 的比較,並唔係一條終點線定輸贏。現有資料入面,最接近同場比較的是 GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7 同 DeepSeek-V4-Pro-Max;Kimi K2.6 則主要來自 Kimi 發布、模型卡同 leaderboard 等另一組資料 [1][
6][
24]。
所以,較實際的問題唔係「邊個模型最強」,而係:「你手上嗰類工作,應該先測邊個模型?」
有一點命名要先講清楚:本文用 DeepSeek-V4-Pro-Max 代表 DeepSeek V4,因為有跑分同成本資料的是這個變體 [18][
24]。另外,凡來源把 GPT-5.5 Pro 同基本版 GPT-5.5 分開列出,本文亦會分開處理,唔會將兩者成績合併 [
24]。
先講結論:按工作負載揀
- **終端機/command-line 類編程代理:**先試 GPT-5.5。共享比較入面,GPT-5.5 的 Terminal-Bench 2.0 為 82.7%,是這組數據最高 [
24]。
- **軟件修復 benchmark:**先試 Claude Opus 4.7。它在引用的 SWE-Bench Pro 行達 64.3%,SWE-Bench Verified 行達 87.6% [
18][
24]。
- **無工具硬推理:**先試 Claude Opus 4.7。共享比較中,它領先 GPQA Diamond 及 Humanity’s Last Exam no tools [
24]。
- **工具輔助推理/瀏覽式搜尋:**先試 GPT-5.5 Pro。資料分開列出 Pro 時,它在 Humanity’s Last Exam with tools 達 57.2%,BrowseComp 達 90.1% [
24]。
- **開放權重部署:**Kimi K2.6 是最清晰的候選。來源描述它是 1T 參數 MoE 模型,32B active parameters,256K context window [
1]。
- **成本敏感的雲端推理:**DeepSeek-V4-Pro-Max 值得放入驗證名單。LLM Stats 列出它有 1M context、SWE-Bench Verified 80.6%,成本欄為 $1.74/$3.48 [
18]。
主要 benchmark 對照
下表的「—」代表引用資料沒有找到該模型在該項目的分數,並不代表分數是零。GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7 同 DeepSeek-V4-Pro-Max 多數來自同一個共享比較;Kimi K2.6 則來自 Kimi 相關發布與模型卡資料 [1][
6][
24]。
| Benchmark | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | Kimi K2.6 | DeepSeek-V4-Pro-Max |
|---|---|---|---|---|---|
| GPQA Diamond | 93.6% [ | — | 94.2% [ | 約 91% [ | 90.1% [ |
| Humanity’s Last Exam,無工具 | 41.4% [ | 43.1% [ | 46.9% [ | — | 37.7% [ |
| Humanity’s Last Exam,有工具 | 52.2% [ | 57.2% [ | 54.7% [ | 54.0% [ | 48.2% [ |
| Terminal-Bench 2.0 | 82.7% [ | — | 69.4% [ | 66.7% [ | 67.9% [ |
| SWE-Bench Pro | 58.6% [ | — | 64.3% [ | 58.6% [ | 55.4% [ |
| BrowseComp | 84.4% [ | 90.1% [ | 79.3% [ | 83.2% [ | 83.4% [ |
| MCP Atlas / MCPAtlas Public | 75.3% [ | — | 79.1% [ | — | 73.6% [ |
| SWE-Bench Verified | — | — | 87.6% [ | 80.2% [ | 80.6% [ |
如果你要落手測,應該由邊個開始?
| 優先事項 | 先試 | 原因 |
|---|---|---|
| Terminal-style coding agents | GPT-5.5 | 共享比較中,它的 Terminal-Bench 2.0 最高,達 82.7% [ |
| 軟件工程修復 | Claude Opus 4.7 | 在本文引用的 SWE-Bench Pro 同 SWE-Bench Verified 行,它都領先這組模型 [ |
| 無工具硬推理 | Claude Opus 4.7 | 共享比較中,它領先 GPQA Diamond 同 Humanity’s Last Exam without tools [ |
| 工具輔助硬推理或瀏覽 | GPT-5.5 Pro | 在 Pro 版本有分開列出的項目中,它領先 Humanity’s Last Exam with tools 同 BrowseComp [ |
| 開放權重部署 | Kimi K2.6 | 它被描述為開放權重 1T 參數 MoE 模型,Hugging Face 模型卡亦列出多個強勁編程 benchmark [ |
| 成本敏感 hosted inference | DeepSeek-V4-Pro-Max | LLM Stats 列出它具 1M context、SWE-Bench Verified 80.6%,同一 leaderboard 上成本欄低於 Claude Opus 4.7 [ |
| 長上下文需求 | GPT-5.5、Claude Opus 4.7 或 DeepSeek-V4-Pro-Max | 引用來源列出 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 為 1M context;Kimi K2.6 則約為 256K 至 262K context [ |
模型逐個睇
GPT-5.5
OpenAI 形容 GPT-5.5 是為複雜任務而設,例如 coding、research 同 data analysis [38]。在 VentureBeat 的共享比較中,GPT-5.5 於 Terminal-Bench 2.0 得 82.7%,高過 Claude Opus 4.7 的 69.4% 同 DeepSeek-V4-Pro-Max 的 67.9% [
24]。同一表格亦列出 GPT-5.5 在 GPQA Diamond 得 93.6%、SWE-Bench Pro 得 58.6%、BrowseComp 得 84.4% [
24]。
要小心的是,GPT-5.5 Pro 是另一個比較點。同一共享表格中,GPT-5.5 Pro 在 BrowseComp 達 90.1%,Humanity’s Last Exam with tools 達 57.2%;但這些分數不應直接併入基本版 GPT-5.5,尤其當你要比較成本、延遲或模型設定時 [24]。
採購角度上,BenchLM 列出 GPT-5.5 有 1M-token context window;另有價格報告列 GPT-5.5 為每百萬 input tokens $5、每百萬 output tokens $30 [27][
36]。這些價格只宜當作訊號,落 budget 前仍要核對供應商即時價格。
Claude Opus 4.7
Claude Opus 4.7 在這組模型入面,軟件修復相關訊號最突出。LLM Stats 列出它在 SWE-Bench Verified 得 87.6%,共享比較則列出它在 SWE-Bench Pro 得 64.3% [18][
24]。它亦在共享比較中領先 GPQA Diamond,分數 94.2%;Humanity’s Last Exam without tools 為 46.9%;MCP Atlas 為 79.1% [
24]。
LLM Stats 報告 Claude Opus 4.7 有 1M-token context window,價格為每百萬 token $5/$25 [16]。不過,可比性要打個折扣:Anthropic 說明部分 benchmark 使用內部實作或更新後的 harness parameters,部分分數不能直接同公開 leaderboard 分數比較 [
17]。
Kimi K2.6
如果你想要開放權重,Kimi K2.6 是本文引用材料中最清楚的候選。發布報道描述它是開放權重 1T 參數 MoE 模型,有 32B active parameters、384 experts、native multimodality、INT4 quantization 及 256K context [1]。Hugging Face 模型卡列出它在 SWE-Bench Verified 得 80.2%、SWE-Bench Pro 得 58.6%、Terminal-Bench 2.0 得 66.7%,LiveCodeBench v6 為 89.6 [
6]。
同一發布報道亦列出 Kimi K2.6 在 Humanity’s Last Exam with tools 得 54.0,在 BrowseComp 得 83.2 [1]。LLM Stats 列 Kimi K2.6 為 262K context,價格欄為 $0.95/$4.00,並標示 Open Source [
11]。限制是,Kimi 的數字不是同 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 完全同一張共享表格得來;所以細微分差應視為「值得測試」的提示,而不是板上釘釘的勝負 [
1][
6][
24]。
DeepSeek-V4-Pro-Max
DeepSeek-V4-Pro-Max 更像是「性價比候選」,而不是明顯全能冠軍。LLM Stats 列出它的 size 為 1.6T、context 為 1M、SWE-Bench Verified 為 80.6%,成本欄為 $1.74/$3.48 [18]。共享比較中,它在 GPQA Diamond 得 90.1%、Humanity’s Last Exam without tools 得 37.7%、Humanity’s Last Exam with tools 得 48.2%、Terminal-Bench 2.0 得 67.9%、SWE-Bench Pro 得 55.4%、BrowseComp 得 83.4%、MCP Atlas 得 73.6% [
24]。
這些數字令 DeepSeek-V4-Pro-Max 很值得放入成本敏感場景測試。不過,同一共享表格中,多數 benchmark 行仍由 GPT-5.5、GPT-5.5 Pro 或 Claude Opus 4.7 領先;所以若要用它取代 premium model,應先用你自己的任務驗證 [24]。
Context window 同價格:只當採購線索
不同來源未必用同一方法報價,context window 亦未必由同一個供應商頁面提供。以下只應當作採購前的訊號,不是最終報價。
| 模型 | 引用到的 context/價格訊號 | 實際解讀 |
|---|---|---|
| GPT-5.5 | BenchLM 列 1M context;一份價格報告列每百萬 input $5、output $30 [ | Premium hosted option;要核對即時價格。 |
| Claude Opus 4.7 | LLM Stats 報告 1M context,以及每百萬 token $5/$25 [ | 適合 premium coding、reasoning 及長上下文任務。 |
| Kimi K2.6 | 發布報道列 256K context;LLM Stats 列 262K context 及 $0.95/$4.00 價格欄 [ | 強開放權重候選;hosted 價格視供應商而定。 |
| DeepSeek-V4-Pro-Max | LLM Stats 列 1M context、1.6T size、SWE-Bench Verified 80.6%,成本欄 $1.74/$3.48 [ | 若你工作負載上質素穩定,是強性價比候選。 |
點解排行榜會「各說各話」?
因為每個 benchmark 測的能力唔一樣。GPQA Diamond 同 Humanity’s Last Exam 偏向硬推理;Terminal-Bench 2.0 同 SWE-Bench 系列偏向編程、agentic software work;BrowseComp 在共享比較中則衡量瀏覽式檢索表現 [24]。一個模型可以在某項第一、另一項落後,未必矛盾,只是題型、工具權限同評測 harness 不同。
即使 benchmark 名稱相同,實作都可能有差異。LLM Stats 列 Claude Opus 4.7 在 SWE-Bench Verified 得 87.6%;LMCouncil 在其設定下則列 Claude Opus 4.7 為 83.5% ± 1.7 [18][
30]。Anthropic 亦說明部分結果使用內部實作或更新後 harness parameters,限制了同公開 leaderboard 直接比較的可能 [
17]。
因此,一兩個百分點的差距,不應單獨決定 production rollout。公開 benchmark 最適合用來收窄 shortlist;最後決定,應該由你自己的測試集來做。
實測 finalists:一個實用清單
在真正轉用某個模型前,最好用你實際會用的任務,測試頭兩至三個候選。
- 用真實 prompts、檔案同 repositories。 公開 benchmark 很少完整反映你的 codebase、文件、政策同用戶行為。
- 工具環境要一致。 Coding-agent 成績會受 terminal access、browsing、retrieval、repository context 或內部 API 影響。
- 同設定下量度成本同延遲。 Pro mode 或較高 reasoning effort 可能提升質素,但亦可能增加 token 用量同回應時間。
- 人工檢查失敗個案。 編程任務要看 tests、diffs、可維護性、安全回歸,以及有沒有幻覺式依賴。
- 至少放入一個低成本挑戰者。 如果你重視開放權重或推理成本,Kimi K2.6 同 DeepSeek-V4-Pro-Max 都值得入測試名單 [
1][
18]。
總結
如果你想先挑最高端候選,應該把 GPT-5.5 同 Claude Opus 4.7 放在一起測:GPT-5.5 有本文引用中最強的 Terminal-Bench 2.0 成績;Claude Opus 4.7 則在引用的 SWE-Bench Pro 同 SWE-Bench Verified 成績最突出 [18][
24]。如果你需要開放權重,先看 Kimi K2.6 [
1][
6]。如果成本是最大限制,就把 DeepSeek-V4-Pro-Max 放入 shortlist,但不要未測就當它可以無縫取代 premium options [
18][
24]。




