四個模型放在同一張比較表,最容易變成「邊個最強」;但按現有可核對資料,更穩妥的結論是:不要排一個總榜,要按任務揀模型。最完整的同場數據覆蓋 DeepSeek V4-Pro-Max、GPT-5.5/GPT-5.5 Pro 和 Claude Opus 4.7;Kimi K2.6 的數據則分散在 context window、BrowseComp、SWE-Bench Pro、Hugging Face model card 和單一實務 coding benchmark,所以只能作輔助比較。[4][
6][
10][
16][
22][
24]
快速結論:四個模型應該點揀?
| 場景 | 建議先測 | 理由 |
|---|---|---|
| 高難度推理、無工具問答 | Claude Opus 4.7 | 同場表中,Claude Opus 4.7 在 GPQA Diamond 94.2% 和 Humanity’s Last Exam no-tools 46.9% 都是最高。[ |
| Terminal、browser、tool-use agent | GPT-5.5/GPT-5.5 Pro | GPT-5.5 在 Terminal-Bench 2.0 得 82.7%;GPT-5.5 Pro 在 BrowseComp 得 90.1%,均為同表最高。[ |
| Software engineering | Claude Opus 4.7 先試;GPT-5.5、Kimi K2.6 跟進實測 | 同場表中 Claude Opus 4.7 在 SWE-Bench Pro/SWE Pro 得 64.3%;LLM Stats 亦列 Claude Opus 4.7 為 0.64,高於 GPT-5.5 和 Kimi K2.6 的 0.59。[ |
| 成本敏感、大量 API 調用 | DeepSeek V4 | DeepSeek V4-Pro-Max 在同場 benchmark 未做第一,但有報道稱 DeepSeek 約為最新美國模型成本六分之一。[ |
| Kimi 生態、替代 coding-agent 路線 | Kimi K2.6 | Kimi K2.6 在 DocsBot 的 BrowseComp 為 83.2%,在 LLM Stats 的 SWE-Bench Pro 為 0.59;但缺少完整四模型同源同場表。[ |
| 超長 context workflow | Claude Opus 4.7/GPT-5.5 較有優勢 | Yahoo/Tech 報道列 GPT-5.5 和 Claude Opus 4.7 為 1M context window;Artificial Analysis 比較頁列 Kimi K2.6 為 256k tokens、Claude Opus 4.7 為 1000k tokens。[ |
最有用的同場 benchmark:Claude、GPT-5.5、DeepSeek V4-Pro-Max
以下數字來自同一比較表,適合用來比較 DeepSeek V4-Pro-Max、GPT-5.5/GPT-5.5 Pro 和 Claude Opus 4.7;GPT-5.5 Pro 只在部分項目出現。[4]
| Benchmark | DeepSeek V4-Pro-Max | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | 同表最高 |
|---|---|---|---|---|---|
| GPQA Diamond | 90.1% | 93.6% | — | 94.2% | Claude Opus 4.7 [ |
| Humanity’s Last Exam,no tools | 37.7% | 41.4% | 43.1% | 46.9% | Claude Opus 4.7 [ |
| Humanity’s Last Exam,with tools | 48.2% | 52.2% | 57.2% | 54.7% | GPT-5.5 Pro [ |
| Terminal-Bench 2.0 | 67.9% | 82.7% | — | 69.4% | GPT-5.5 [ |
| SWE-Bench Pro/SWE Pro | 55.4% | 58.6% | — | 64.3% | Claude Opus 4.7 [ |
| BrowseComp | 83.4% | 84.4% | 90.1% | 79.3% | GPT-5.5 Pro [ |
| MCP Atlas/MCPAtlas Public | 73.6% | 75.3% | — | 79.1% | Claude Opus 4.7 [ |
這張表的讀法很清楚:Claude Opus 4.7 領先高難度推理、無工具解題、software engineering 和 MCP Atlas;GPT-5.5 系列則在 terminal、browser 和工具使用類任務更突出。[4] DeepSeek V4-Pro-Max 在這組同場數據未做任何一項第一,但 BrowseComp 83.4% 接近 GPT-5.5 的 84.4%,亦高過 Claude Opus 4.7 的 79.3%。[
4]
Kimi K2.6:有亮點,但不能硬放入同一總榜
Kimi K2.6 的問題不是完全沒有數據,而是數據來源、模式和對照組不一致。以下數字可以幫你判斷它值不值得測,但不應直接當成與上表完全同場的排名。[6][
10][
16][
22][
24]
| 指標 | Kimi K2.6 可見資料 | 對照資料 | 可用解讀 |
|---|---|---|---|
| Context window | 256k tokens | Claude Opus 4.7 在同一比較頁列為 1000k tokens | Claude 的可用上下文長度明顯較大。[ |
| BrowseComp | 83.2% Thinking mode | DeepSeek-V4 Pro 為 83.4% Pass@1/Think Max | Kimi 與 DeepSeek-V4 Pro 在這個來源非常接近,但未同時列 GPT-5.5 或 Claude Opus 4.7。[ |
| AIME 2026/APEX Agents | AIME 2026 為 96.4%;APEX Agents 為 27.9% | DeepSeek-V4 Pro 在同頁顯示 not available | 顯示 Kimi 有數學與 agent 類指標,但缺少四模型同場對照。[ |
| SWE-Bench Pro | 0.59 | Claude Opus 4.7 為 0.64、GPT-5.5 為 0.59、DeepSeek V4-Pro-Max 為 0.55 | 在 LLM Stats 這個榜上,Kimi 與 GPT-5.5 同分,低於 Claude,高於 DeepSeek。[ |
| MMLU-Pro/SimpleQA-Verified | MMLU-Pro 87.1;SimpleQA-Verified 36.9 | DS-V4-Pro Max 分別為 87.5 和 57.9 | 可輔助比較 Kimi 與 DeepSeek;但同表的 Opus/GPT 是 Opus-4.6 Max 和 GPT-5.4 xHigh,不是本文指定版本。[ |
| 實務 coding benchmark | 87 分 | Claude Opus 4.7 為 97、GPT-5.5 xHigh 為 96、DeepSeek V4 Flash 為 78、DeepSeek V4 Pro 為 69 | 有實務參考價值,但這是單一 coding 測試,不應取代標準化 benchmark 或你自己的 repo eval。[ |
因此,Kimi K2.6 的合理定位是:值得進入 shortlist,尤其是你想測 Kimi 生態、替代模型路線或 coding-agent 成本時;但現有資料不足以支持它在四模型之中成為可證明的總冠軍。[10][
16][
24]
價格、context window 與部署成本
Benchmark 只能回答能力問題,不能單獨回答 production 選型。API 價格、output token 成本、上下文長度和模型體量,會直接影響實際使用成本。
| 模型 | 可確認資料 | 選型含義 |
|---|---|---|
| GPT-5.5 | 每 100 萬 input tokens $5;每 100 萬 output tokens $30;1M context window | 與 Claude Opus 4.7 input 價相同,但同一報道列出的 output 價較高。[ |
| Claude Opus 4.7 | 每 100 萬 input tokens $5;每 100 萬 output tokens $25;1M context window | 同一報道中,output token 價低過 GPT-5.5;Artificial Analysis 亦在 Kimi 對照頁列 Claude 為 1000k context。[ |
| Kimi K2.6 | 256k context window | context window 較 Claude Opus 4.7 的 1000k tokens 短;本文來源未提供足夠可核對 token pricing。[ |
| DeepSeek V4 | 報道稱 DeepSeek 約為最新美國模型成本六分之一;DataCamp 列 DeepSeek V4 Pro 為 MoE、1.6T total parameters、49B active parameters、865GB download,Flash 為 284B total parameters、13B active parameters、160GB download | 若只用 API,DeepSeek 的吸引力主要是成本;若考慮自部署或私有化,模型體量和硬件成本要一併計。[ |
這裏最重要的成本訊號是:GPT-5.5 和 Claude Opus 4.7 在報道中同樣是 $5/1M input tokens,但 GPT-5.5 的 output 價為 $30/1M,Claude Opus 4.7 為 $25/1M;DeepSeek 則以約六分之一成本的敘事切入。[20]
按任務深入選型
1. 高難度推理:Claude Opus 4.7 先試
如果任務是學術推理、無工具解題、複雜分析或高可靠度問答,Claude Opus 4.7 是現有同場 benchmark 最有力的第一選擇。它在 GPQA Diamond 得 94.2%,高於 GPT-5.5 的 93.6% 和 DeepSeek V4-Pro-Max 的 90.1%;Humanity’s Last Exam no-tools 亦以 46.9% 領先同表模型。[4]
2. Terminal、browser、tool-use agent:GPT-5.5/GPT-5.5 Pro 先試
如果任務重點是 terminal 操作、browser agent、工具鏈控制或有工具解題,GPT-5.5 系列更突出。GPT-5.5 在 Terminal-Bench 2.0 得 82.7%,高於 Claude Opus 4.7 的 69.4% 和 DeepSeek V4-Pro-Max 的 67.9%;GPT-5.5 Pro 在 BrowseComp 得 90.1%,亦是同表最高。[4]
3. Software engineering:Claude 領先,但 GPT-5.5 與 Kimi 都要實測
同場表中,Claude Opus 4.7 在 SWE-Bench Pro/SWE Pro 得 64.3%,高於 GPT-5.5 的 58.6% 和 DeepSeek V4-Pro-Max 的 55.4%。[4] LLM Stats 的 SWE-Bench Pro 排名方向相近:Claude Opus 4.7 為 0.64,GPT-5.5 和 Kimi K2.6 同為 0.59,DeepSeek V4-Pro-Max 為 0.55。[
24]
不過,coding benchmark 很容易受 repo、語言、測試框架、agent 設定和提示方式影響。單一實務 coding 測試列出 Claude Opus 4.7 97、GPT-5.5 xHigh 96、Kimi K2.6 87、DeepSeek V4 Flash 78、DeepSeek V4 Pro 69;這些數字有參考價值,但不應單獨決定 production 選型。[16]
4. 成本敏感、大量調用:DeepSeek V4 值得優先測
如果瓶頸是 token 成本,而任務不一定要求每個 benchmark 都最高,DeepSeek V4 是合理候選。同場資料顯示 DeepSeek V4-Pro-Max 在多項 benchmark 接近前線模型但未做第一;同時,報道稱 DeepSeek 約為最新美國模型成本六分之一。[4][
20]
要注意的是,DeepSeek V4 Pro 的模型規格相當大:DataCamp 列 Pro 版為 1.6T total parameters、49B active parameters、865GB download。[13] 如果不是只用第三方 API,而是要評估部署或私有化,硬件、下載、推理成本和維運能力都要一併納入。
5. Kimi K2.6:放入 shortlist,用自己的任務重跑 eval
Kimi K2.6 有幾個值得留意的訊號:DocsBot 列 Kimi K2.6 的 BrowseComp 為 83.2%,幾乎貼近同頁 DeepSeek-V4 Pro 的 83.4%;LLM Stats 列 Kimi K2.6 在 SWE-Bench Pro 為 0.59,與 GPT-5.5 同分;實務 coding benchmark 亦列出 Kimi K2.6 為 87 分。[10][
16][
24]
但由於缺少與 Claude Opus 4.7、GPT-5.5、DeepSeek V4-Pro-Max 完整同源、同設定、同場覆蓋的 benchmark,Kimi K2.6 目前最好視為高潛力候選,而不是可直接宣布的四模型總冠軍。[10][
24]
研究限制:點解唔應過度解讀排名
- Kimi K2.6 缺少完整同場表。 最完整的同場資料覆蓋 DeepSeek V4-Pro-Max、GPT-5.5/GPT-5.5 Pro 和 Claude Opus 4.7,但不包括 Kimi K2.6;Kimi 需要靠 DocsBot、Artificial Analysis、LLM Stats、Hugging Face model card 和單一 coding benchmark 補充。[
4][
6][
10][
16][
22][
24]
- 版本與模式名稱不一致。 來源中同時出現 GPT-5.5 Pro、GPT-5.5 xHigh、DeepSeek-V4 Pro、DeepSeek V4-Pro-Max、Kimi Thinking、Claude Opus 4.7 Adaptive Reasoning/Max Effort 等標記,不應簡單視為完全同設定。[
4][
6][
10][
16][
22]
- 不同平台分數格式未必可直接相加。 例如同場表用百分比列 SWE-Bench Pro/SWE Pro,而 LLM Stats 用 0.xx 格式列 SWE-Bench Pro;更穩妥做法是先比較同一來源內的相對排名,再用自己的任務重跑 eval。[
4][
24]
- 價格資料不平均。 GPT-5.5 和 Claude Opus 4.7 有清楚的 input/output token 報道價;DeepSeek 主要有約六分之一成本說法;Kimi K2.6 在本文可見來源中未有足夠完整 token pricing 可核對。[
6][
20]
最後判斷
如果只要一句話:Claude Opus 4.7 贏高難度推理和 software engineering benchmark;GPT-5.5/GPT-5.5 Pro 贏多個 tool-use、terminal、browser 類 benchmark;DeepSeek V4-Pro-Max 是成本與能力折衷;Kimi K2.6 有潛力,但仍需要更多完整同場證據。[4][
10][
20][
24]
真正落地時,不要只看總分。用你自己的 repo、bug ticket、research workflow、工具權限、上下文長度、latency、錯誤容忍度和 token 成本,對四個模型跑同一批 eval;到那一步,benchmark 才會變成真正的產品選型答案。




