別急著把四款模型排成一條絕對名次。前沿大型語言模型的比較,最容易被單一跑分誤導。依目前來源,較穩妥的讀法是:GPT-5.5 的整體排名訊號最強;Claude Opus 4.7 在多個高難推理與軟體工程項目領先;DeepSeek V4 的 API 成本優勢最清楚;Kimi K2.6 有 coding 與代理式(agentic)工作流實力訊號,但直接對上 GPT-5.5 與 Opus 4.7 的證據較少。[2][
16][
15][
18][
19]
先看結論
| 你最在意的是… | 較有根據的選擇 | 原因 |
|---|---|---|
| 整體智能排名 | GPT-5.5 | Artificial Analysis 將 GPT-5.5 xhigh 列為 60、GPT-5.5 high 列為 59,高於 Claude Opus 4.7 Adaptive Reasoning Max Effort 的 57。[ |
| 高難推理與軟體工程 | Claude Opus 4.7;GPT-5.5 緊追 | VentureBeat 的共享表中,Claude 在 GPQA Diamond、HLE 不用工具、SWE-Bench Pro、MCP Atlas 領先;GPT-5.5 在 Terminal-Bench 2.0 與基礎 BrowseComp 更強,GPT-5.5 Pro 在有列出的 HLE with tools 與 BrowseComp 最高。[ |
| API 成本 | DeepSeek V4 | Mashable 列 DeepSeek V4 為每 100 萬輸入 tokens US$1.74、輸出 tokens US$3.48,低於 GPT-5.5 的 US$5/US$30 與 Claude Opus 4.7 的 US$5/US$25。[ |
| 已揭露 coding 指標 | DeepSeek V4 Pro | Together AI 列 DeepSeek V4 Pro 為 LiveCodeBench 93.5%、Codeforces 3206、SWE-Bench Verified 80.6%、SWE-Bench Multilingual 76.2%。[ |
| Kimi K2.6 的定位 | 值得測,但尚非定論 | Kimi K2.6 有 coding 與 agentic 數據,但主要 Kimi 表格多與 GPT-5.4、Claude Opus 4.6 比較,而不是 GPT-5.5、Claude Opus 4.7。[ |
綜合榜:GPT-5.5 的訊號最清楚
目前來源中最乾淨的整體排序,是 Artificial Analysis 的 Intelligence Index 摘要:GPT-5.5 xhigh 為 60、GPT-5.5 high 為 59;Claude Opus 4.7 Adaptive Reasoning Max Effort 為 57。[2]
Kimi K2.6 在可見的綜合片段中低於這個 GPT-5.5/Claude 層級。OpenRouter 列 Kimi K2.6 的 Intelligence 為 53.9、Coding 為 47.1、Agentic 為 66.0;LLMBase 的 DeepSeek V4 Flash High vs Kimi K2.6 比較也列 Kimi 為 Intelligence 53.9、Coding 47.1。[3][
1] 同一個 LLMBase 比較列 DeepSeek V4 Flash High 為 Intelligence 44.9、Coding 39.8,但這是 Flash 版本,不能直接代表 DeepSeek V4 Pro 或 Pro-Max。[
1]
所以,這裡能下的結論是:GPT-5.5 對 Claude Opus 4.7 的整體 ranking 訊號相對清楚;但現有來源沒有提供 GPT-5.5、Claude Opus 4.7、DeepSeek V4 Pro-Max、Kimi K2.6 四者完整同場的一條總榜。[2]
同場基準:Claude 和 GPT-5.5 分別拿下不同戰場
VentureBeat 的共享表,是目前最適合拿來比較 DeepSeek-V4-Pro-Max、GPT-5.5、部分 GPT-5.5 Pro 與 Claude Opus 4.7 的同列資料。[16]
| 基準 | DeepSeek-V4-Pro-Max | GPT-5.5 | GPT-5.5 Pro(若有列) | Claude Opus 4.7 | 這份來源中的最高 |
|---|---|---|---|---|---|
| GPQA Diamond | 90.1% | 93.6% | — | 94.2% | Claude Opus 4.7[ |
| Humanity’s Last Exam,不用工具 | 37.7% | 41.4% | 43.1% | 46.9% | Claude Opus 4.7[ |
| Humanity’s Last Exam,使用工具 | 48.2% | 52.2% | 57.2% | 54.7% | GPT-5.5 Pro[ |
| Terminal-Bench 2.0 | 67.9% | 82.7% | — | 69.4% | GPT-5.5[ |
| SWE-Bench Pro / SWE Pro | 55.4% | 58.6% | — | 64.3% | Claude Opus 4.7[ |
| BrowseComp | 83.4% | 84.4% | 90.1% | 79.3% | GPT-5.5 Pro[ |
| MCP Atlas / MCPAtlas Public | 73.6% | 75.3% | — | 79.1% | Claude Opus 4.7[ |
這不是一場橫掃,而是分項勝負。Claude Opus 4.7 在 GPQA Diamond、HLE 不用工具、SWE-Bench Pro、MCP Atlas 的證據較強;GPT-5.5 則在 Terminal-Bench 2.0 與基礎 BrowseComp 佔優,且 GPT-5.5 Pro 在 VentureBeat 有列出的 HLE with tools 與 BrowseComp 最高。[16]
DeepSeek-V4-Pro-Max 在若干項目很接近,但在這張共享表中沒有超過 GPT-5.5 或 Claude Opus 4.7 的最佳結果。最接近的一列是 BrowseComp:DeepSeek-V4-Pro-Max 為 83.4%,GPT-5.5 為 84.4%,Claude Opus 4.7 為 79.3%。[16]
Coding:要看你是在修 repo、跑競程,還是做 agent
若任務像 repository 級軟體工程,Claude Opus 4.7 在 VentureBeat 的 SWE-Bench Pro 共享列最強:64.3%,高於 GPT-5.5 的 58.6% 與 DeepSeek-V4-Pro-Max 的 55.4%。[16]
但若你看的是競賽程式、程式生成與多語言軟體工程,DeepSeek V4 Pro 在本文來源中揭露的 coding 指標最完整之一。Together AI 列出 DeepSeek V4 Pro 的 LiveCodeBench 93.5%、Codeforces 3206、SWE-Bench Verified 80.6%、SWE-Bench Multilingual 76.2%。[25] NVIDIA 的模型卡也把 DeepSeek V4 Flash 與 V4 Pro 的多種推理設定拆開列示,並顯示 V4-Pro Max 在 LiveCodeBench 為 93.5、Codeforces 為 3206。[
31]
Kimi K2.6 也有值得看的 coding 證據,只是同場對照不夠直接。Lorka 的表格列 Kimi K2.6 在 SWE-Bench Pro 為 58.6%、HLE-Full with tools 為 54.0%、GPQA-Diamond 為 90.5%、MMMU-Pro 為 79.4%,但該表主要拿它和 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 比較。[18] Verdent 則列 Kimi K2.6 在 SWE-Bench Verified 為 80.2%、Terminal-Bench 2.0 為 66.7%、HLE with tools 為 54.0%、LiveCodeBench v6 為 89.6%,並註明 Opus 4.7 在 SWE-Bench Verified 以 87.6% 領先。[
19]
換句話說,Kimi K2.6 值得放進 coding agent 與代理式流程的候選清單;但依現有直接證據,還不能說它在整體上勝過 GPT-5.5 或 Claude Opus 4.7。[18][
19]
價格:DeepSeek V4 的優勢最直觀
如果 API 成本是核心考量,DeepSeek V4 的價格論點最清楚。以下價格均以每 100 萬 tokens 計;tokens 可理解為模型處理文字時的基本計費單位。[15][
1]
| 模型或版本 | 輸入價格 | 輸出價格 | 補充 |
|---|---|---|---|
| GPT-5.5 | US$5 / 100 萬 tokens | US$30 / 100 萬 tokens | Mashable 在此比較列為 1M context window。[ |
| Claude Opus 4.7 | US$5 / 100 萬 tokens | US$25 / 100 萬 tokens | Mashable 在此比較列為 1M context window。[ |
| DeepSeek V4 | US$1.74 / 100 萬 tokens | US$3.48 / 100 萬 tokens | Mashable 在此比較列為 1M context window。[ |
| DeepSeek V4 Flash | US$0.14 / 100 萬 tokens | US$0.28 / 100 萬 tokens | LLMBase 另列 blended 價格為 US$0.18。[ |
| Kimi K2.6 | US$0.95 / 100 萬 tokens | US$4.00 / 100 萬 tokens | LLMBase 另列 blended 價格為 US$1.71。[ |
不過,價格表不能和所有端點的實際限制劃上等號。Mashable 在比較中把 DeepSeek V4、GPT-5.5、Claude Opus 4.7 都列為 1M context window;但 OpenRouter 的 DeepSeek V4 Pro 頁面顯示 max tokens 為 256K、max output tokens 為 66K。[15][
3] 真正上線前,仍要確認你呼叫的是哪個供應商、哪個版本、哪個推理檔位,以及實際上下文與輸出上限。
四款模型怎麼選
GPT-5.5:需要高階通用預設時最穩
如果你的決策依據是整體排名訊號,GPT-5.5 是最有根據的預設選擇。Artificial Analysis 將 GPT-5.5 xhigh 列為 60、GPT-5.5 high 列為 59,是本文來源中可見的最高兩個 Intelligence Index 位置。[2]
在 VentureBeat 的共享表裡,GPT-5.5 也在 Terminal-Bench 2.0 達 82.7%,基礎 BrowseComp 為 84.4%;GPT-5.5 Pro 在有列出的 BrowseComp 達 90.1%。[16]
Claude Opus 4.7:高難推理與 repo 級工程很強
Claude Opus 4.7 的整體排名略低於 GPT-5.5,但仍屬最前段:Artificial Analysis 列 Claude Opus 4.7 Adaptive Reasoning Max Effort 的 Intelligence Index 為 57。[2] 在 VentureBeat 共享表中,它領先 GPT-5.5 與 DeepSeek-V4-Pro-Max 的項目包括 GPQA Diamond、HLE 不用工具、SWE-Bench Pro、MCP Atlas。[
16]
Anthropic 自家發表資料也提到 Claude Opus 4.7 的內部 research-agent 結果,包括六個模組整體分數並列第一的 0.715,以及 General Finance 分數 0.813、高於 Opus 4.6 的 0.767。[17] 但這類內部基準最好當成補充背景,不宜等同於中立排行榜。[
17]
DeepSeek V4:成本敏感或大量 token 場景最有吸引力
DeepSeek V4 最明顯的優勢是價格。Mashable 的比較中,DeepSeek V4 每 100 萬輸入 tokens 為 US$1.74、輸出 tokens 為 US$3.48;GPT-5.5 為 US$5/US$30,Claude Opus 4.7 為 US$5/US$25。[15]
DeepSeek V4 Pro 的 coding 指標也不弱:Together AI 列出 LiveCodeBench 93.5%、Codeforces 3206、SWE-Bench Verified 80.6%、SWE-Bench Multilingual 76.2%。[25] 取捨在於,DeepSeek-V4-Pro-Max 在 VentureBeat 共享表中仍落後於 GPT-5.5 或 Claude Opus 4.7 的最佳結果,即使在 BrowseComp 這類項目已非常接近。[
16]
Kimi K2.6:可放進 coding agent 評估,但不要過早封王
Kimi K2.6 的難點在於:主要 Kimi-focused 表格多拿它和 GPT-5.4、Claude Opus 4.6 比,而不是 GPT-5.5、Claude Opus 4.7。[18][
19] 但訊號並不弱。OpenRouter 列 Kimi K2.6 的 Intelligence 為 53.9、Coding 為 47.1、Agentic 為 66.0;Verdent 則列 SWE-Bench Verified 80.2% 與 LiveCodeBench v6 89.6%。[
3][
19]
實務上的結論不是 Kimi K2.6 不行,而是直接證據較薄。如果它的價格、部署路線或 agent 行為符合你的技術棧,值得自己跑測;但現有來源不足以支持它成為四者中的整體冠軍。[18][
19]
選型前,先把這些坑補上
- 版本名稱很重要。 DeepSeek V4 在來源中以 V4、V4 Flash、V4 Pro、DeepSeek-V4-Pro-Max 等形式出現,價格、限制與跑分會因版本和推理設定不同而變。[
1][
15][
25][
31]
- 推理檔位不能混著比。 GPT-5.5 有 xhigh、high 等設定;Claude Opus 4.7 有 Adaptive Reasoning Max Effort;DeepSeek V4 Pro 也有不同 reasoning 模式與 Max 設定。[
2][
25][
31]
- Kimi 的直接比較較少。 現有 Kimi K2.6 強項表格多與 GPT-5.4、Claude Opus 4.6 對照,不能自動外推到 GPT-5.5、Claude Opus 4.7。[
18][
19]
- Humanity’s Last Exam 不用工具的片段有不一致。 LLM Stats 與 VentureBeat 都列 GPT-5.5 為 41.4%、Claude Opus 4.7 為 46.9%;Mashable 的 GPT 對 Claude 片段則列 GPT-5.5 為 40.6%、Opus 4.7 為 31.2%。[
7][
16][
9]
- 內部基準不是中立排行榜。 Anthropic 的 Opus 4.7 發表文有內部 research-agent 成績,但應與跨供應商公開比較分開閱讀。[
17]
- 價格與上下文長度看端點。 同一模型家族在不同供應商頁面上,可能有不同 context window、max tokens 與 max output tokens。[
3][
15]
底線
選 GPT-5.5,如果你最看重現有整體 Intelligence Index 訊號。[2] 選 Claude Opus 4.7,如果你的工作像 GPQA Diamond、HLE 不用工具、SWE-Bench Pro、MCP Atlas 這些高難推理與軟體工程列。[
16] 選 DeepSeek V4,如果你最在意成本效益,並能先驗證實際要用的 V4 版本;它的列示 API 價格明顯低於 GPT-5.5 與 Claude Opus 4.7,DeepSeek V4 Pro 也有強 coding 指標。[
15][
25] 把 Kimi K2.6 視為值得測試的 coding 與 agentic 候選,但不要在直接證據不足時,把它稱為四者中的總冠軍。[
18][
19]




