把 GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 排成一張絕對總榜,很容易誤導。現有公開資料來自不同測試來源、不同推理強度與不同 harness;LLM Stats 也提醒,GPT-5.5 與 Claude Opus 4.7 的部分分數屬於供應商在高推理 tier 下自報,形狀可比,但方法論不完全一致。[3] 更可靠的讀法,是先按任務拆開:工具型代理看 GPT-5.5,推理與審查看 Claude Opus 4.7,成本敏感 API 看 DeepSeek V4,開源 coding-agent 探索再把 Kimi K2.6 放進實測清單。[
3][
4][
5][
7]
快速選型:先測哪一款?
| 你的主要需求 | 優先測試 | 依據 |
|---|---|---|
| Agentic web browsing、終端機自動化、跨工具工作流 | GPT-5.5 | GPT-5.5 在 BrowseComp 為 84.4%,Terminal-Bench 2.0 為 82.7%,兩者都高於 VentureBeat 摘要中列出的 Claude Opus 4.7 與 DeepSeek-V4-Pro-Max 對應數字。[ |
| 高難度推理、審查、低容錯決策 | Claude Opus 4.7 | Claude Opus 4.7 在 GPQA Diamond 為 94.2%,在 Humanity’s Last Exam no-tools 為 46.9%,均高於同表中的 GPT-5.5 與 DeepSeek-V4-Pro-Max。[ |
| 高流量、成本敏感的 API 調用 | DeepSeek V4 | DeepSeek V4 的公開價格為每 100 萬輸入 token 1.74 美元、輸出 token 3.48 美元,低於 GPT-5.5 與 Claude Opus 4.7 的同口徑價格。[ |
| 開源 coding-agent、長流程 coding 實驗 | Kimi K2.6 | DocsBot 將 Kimi K2.6 描述為 Moonshot AI 的 open-source native multimodal agentic model,具 256K context;但它缺少與另外三款完整同場的公開基準。[ |
核心 benchmark 與價格對照
DeepSeek 的公開資料口徑不完全一致:價格來源多寫 DeepSeek V4 或 DeepSeek V4 Pro,部分 benchmark 則寫 DeepSeek-V4-Pro-Max。[1][
7][
17] 下表保留來源中的名稱,避免把不同設定視為完全相同的模型配置。
| 指標 | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 / V4-Pro-Max | Kimi K2.6 |
|---|---|---|---|---|
| Artificial Analysis Intelligence Index | xhigh 60;high 59。[ | Adaptive Reasoning, Max Effort 57。[ | 提供摘要未列出同口徑分數。[ | 提供摘要未列出同口徑分數。[ |
| BrowseComp | 84.4%。[ | 79.3%。[ | DeepSeek-V4-Pro-Max 83.4%。[ | 未見四方同場分數。 |
| Terminal-Bench 2.0 | 82.7%。[ | 69.4%。[ | 67.9%。[ | 66.70%,但來自 Kimi K2.6、Claude Opus 4.6、GPT-5.4 的另一組比較,不是四方同場。[ |
| SWE-Bench Pro | 58.6%。[ | 64.3%。[ | DeepSeek V4 Pro 55.4%。[ | 58.60%,但 Verdent 註明使用 Moonshot in-house harness,且比較對象不是 GPT-5.5、Claude Opus 4.7、DeepSeek V4 的完整同場。[ |
| GPQA Diamond | 93.6%。[ | 94.2%。[ | DeepSeek-V4-Pro-Max 90.1%。[ | 未見四方同場分數。 |
| Humanity’s Last Exam,no tools | 41.4%;GPT-5.5 Pro 為 43.1%。[ | 46.9%。[ | 37.7%。[ | 未見四方同場分數。 |
| API 價格,輸入 / 輸出,每 100 萬 token | 5 / 30 美元;1M context window。[ | 5 / 25 美元;1M context window。[ | 1.74 / 3.48 美元;1M context window。[ | 提供來源未給出同口徑價格;DocsBot 摘要稱 context 為 256K。[ |
1. 綜合排名:GPT-5.5 在可見 Intelligence Index 領先
Artificial Analysis 的可見摘要列出 Intelligence Index 前五名:GPT-5.5 xhigh 為 60、GPT-5.5 high 為 59、Claude Opus 4.7 Adaptive Reasoning, Max Effort 為 57,後面還有 Gemini 3.1 Pro Preview 與 GPT-5.4 xhigh 同為 57。[2]
這只能支持一個有限結論:在該摘要可見的 Intelligence Index 領先模型中,GPT-5.5 排在 Claude Opus 4.7 前面。[2] 它不能直接推出四款模型的完整總排名,因為同一可見摘要沒有給出 DeepSeek V4 與 Kimi K2.6 的同口徑 Intelligence Index 分數。[
2]
2. Agentic browsing 與 terminal:GPT-5.5 最強,DeepSeek browsing 很接近
BrowseComp 偏向評估 agentic AI web browsing,尤其是高度容器化資訊查找;VentureBeat 摘要列出的結果是 GPT-5.5 84.4%、DeepSeek-V4-Pro-Max 83.4%、Claude Opus 4.7 79.3%。[7] 這代表在 web browsing 代理任務上,DeepSeek-V4-Pro-Max 與 GPT-5.5 的差距很小,但 Claude Opus 4.7 在同表中落後一些。[
7]
Terminal-Bench 2.0 的差距更明顯。VentureBeat 摘要列出 GPT-5.5 82.7%、Claude Opus 4.7 69.4%、DeepSeek 67.9%;Yahoo / Investing.com 也描述 Terminal-Bench 2.0 測試 command-line workflows,並列出 GPT-5.5 82.7%。[7][
31]
Kimi K2.6 的 Terminal-Bench 2.0 可見數字為 66.70%,但來源比較的是 Kimi K2.6、Claude Opus 4.6 與 GPT-5.4,不是 GPT-5.5、Claude Opus 4.7、DeepSeek V4 的同場表。[4]
3. Coding / SWE:Claude 的 SWE-Bench Pro 數字較高,但工具流程要另看
DataCamp 的 DeepSeek V4 對比表列出 SWE-Bench Pro:DeepSeek V4 Pro 55.4%、GPT-5.5 58.6%、Claude Opus 4.7 64.3%。[17] Yahoo / Investing.com 也稱 GPT-5.5 在 SWE-Bench Pro 為 58.6%,而該測試評估 GitHub issue resolution。[
31]
Kimi K2.6 的 coding 數字值得單獨看。Verdent 摘要列出 Kimi K2.6 在 SWE-Bench Pro 為 58.60%、SWE-Bench Verified 為 80.20%、LiveCodeBench v6 為 89.60%;但同一摘要註明,Kimi K2.6 數字來源為 Moonshot AI official model card,且 SWE-Bench Pro 使用 Moonshot in-house harness。[4] 因此,Kimi K2.6 可以列入 coding-agent 候選,但不適合直接拿這些數字硬排進四方總榜。[
4]
實務上,若任務是大型 repo 修復、code review 或長時間 coding agent,不應只看單一 SWE 分數。Claude Opus 4.7 在可見 SWE-Bench Pro 對比中最高;GPT-5.5 在 Terminal-Bench 2.0 這類長流程工具任務上領先;Kimi K2.6 則需要用自己的 repo 與工作流補測。[17][
7][
4]
4. 高難度推理:Claude Opus 4.7 的可見優勢更明確
VentureBeat 摘要列出 GPQA Diamond:Claude Opus 4.7 94.2%、GPT-5.5 93.6%、DeepSeek-V4-Pro-Max 90.1%。同一摘要列出 Humanity’s Last Exam no-tools:Claude Opus 4.7 46.9%、GPT-5.5 41.4%、GPT-5.5 Pro 43.1%、DeepSeek-V4-Pro-Max 37.7%。[7]
LLM Stats 對 GPT-5.5 與 Claude Opus 4.7 的結論也指向同一方向:在雙方都報告的 10 個 benchmark 中,Claude Opus 4.7 領先 6 個,GPT-5.5 領先 4 個;Claude 的優勢集中在 reasoning-heavy 與 review-grade tests,而 GPT-5.5 的優勢集中在 long-running tool-use tests。[3]
5. 價格與 context:DeepSeek V4 的成本優勢最清楚
Mashable 摘要列出三款模型的 API 價格:DeepSeek V4 為每 100 萬輸入 token 1.74 美元、每 100 萬輸出 token 3.48 美元,並標示 1M context window;GPT-5.5 為每 100 萬輸入 5 美元、輸出 30 美元,並標示 1M context window;Claude Opus 4.7 為每 100 萬輸入 5 美元、輸出 25 美元,並標示 1M context window。[1]
DataCamp 的 DeepSeek V4 對比摘要也使用相同價格口徑,並列出 DeepSeek V4 Pro、GPT-5.5、Claude Opus 4.7 的 context window 約為 1M tokens。[17] 在這些可見價格中,DeepSeek V4 明顯低於 GPT-5.5 與 Claude Opus 4.7;再加上 DeepSeek-V4-Pro-Max 在 BrowseComp 為 83.4%、接近 GPT-5.5 的 84.4%,它很適合作為成本敏感 API 路由的第一批測試對象。[
1][
7][
17]
Kimi K2.6 的同口徑 API 價格沒有出現在提供來源中;DocsBot 摘要則稱 Kimi K2.6 具 256K context,並將其描述為面向 long-horizon coding、coding-driven design、autonomous execution 與 swarm-based orchestration 的 open-source agentic model。[5]
建議的實務架構:不要選單一模型,先做路由
對多數產品團隊來說,最務實的答案不是「只買哪一個模型」,而是先建立分層路由與回歸測試:
- 用 GPT-5.5 當高端 agentic 基準。 它在 BrowseComp、Terminal-Bench 2.0,以及 OpenAI 官方列出的 GDPval 84.9%、OSWorld-Verified 78.7%、Tau2-bench Telecom 98.0% 等工具與知識工作相關 benchmark 上都有強勢公開數字。[
7][
23]
- 用 Claude Opus 4.7 測推理、審查與低容錯任務。 它在 GPQA Diamond、Humanity’s Last Exam no-tools,以及 LLM Stats 歸類的 reasoning-heavy / review-grade tests 中更突出。[
7][
3]
- 用 DeepSeek V4 壓低高流量 API 成本。 它的公開 token 價格低於 GPT-5.5 與 Claude Opus 4.7,同時在 BrowseComp 上接近 GPT-5.5。[
1][
7]
- 把 Kimi K2.6 放進開源 coding-agent 實驗池。 它有可見 coding 與 agentic 指標,但目前缺少與 GPT-5.5、Claude Opus 4.7、DeepSeek V4 的完整同場基準,因此更適合用自家 repo、工具鏈與部署條件實測。[
4][
5]
這次比較的限制
- 不是所有模型都有同場、同設定 benchmark。 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 在 VentureBeat 摘要中有部分同表數字;Kimi K2.6 主要來自另一組與 Claude Opus 4.6、GPT-5.4 的比較。[
7][
4]
- 模型配置可能不同。 Artificial Analysis 摘要中的 GPT-5.5 分為 xhigh / high,Claude Opus 4.7 是 Adaptive Reasoning, Max Effort;VentureBeat 使用 DeepSeek-V4-Pro-Max,這些不一定等同於一般 API 預設模式。[
2][
7]
- 自報與第三方分數不能完全等同。 LLM Stats 明確提醒,GPT-5.5 與 Claude Opus 4.7 的部分分數是供應商在高推理 tier 下自報,方法論不完全一致。[
3]
- 公開 benchmark 只能決定測試優先順序。 BrowseComp 偏 web browsing 代理,Terminal-Bench 2.0 偏 command-line workflows,SWE-Bench Pro 偏 GitHub issue resolution;它們不能替代你自己的真實任務評估。[
7][
31]
最終判斷
若只用可見公開資料初篩,GPT-5.5 是 agentic tool-use 與可見綜合排名的最強候選;Claude Opus 4.7 是推理與 review-grade 任務的最強候選之一;DeepSeek V4 是價格最有吸引力的高性價比候選;Kimi K2.6 則應放進開源 / coding-agent 實驗池,但目前證據不足以公平排入完整四方總榜。[2][
3][
1][
4][
5]
採購或上線前,建議用同一批真實任務做回歸測試:同一 prompt、同一工具權限、同一上下文長度、同一成功判準。公開 benchmark 的價值,是幫你決定先測誰;最終選型,仍應由你的產品場景、錯誤成本與 token 成本共同決定。[3][
7][
31]




