公開數據不支持單一「總冠軍」:GPT 5.5 在可見 Intelligence Index 60/59、BrowseComp 84.4% 與 Terminal Bench 2.0 82.7% 最突出;Claude Opus 4.7 在 GPQA Diamond 94.2% 與 HLE no tools 46.9% 領先,Kimi K2.6 則缺少完整四方同場數據。[2][7][4] DeepSeek V4 的最大優勢是成本:公開摘要列出每 100 萬 token 輸入 / 輸出為 1.74 / 3.48 美元,低於 GPT 5.5 的 5 / 30 美元與 Claude Opus 4.7 的 5 / 25 美元。[1][17]...

Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 怎麼選?Benchmark 與價格比較. Article summary: 公開數據不支持一個絕對總冠軍:GPT 5.5 在可見 Intelligence Index 60/59、BrowseComp 84.4% 與 Terminal Bench 2.0 82.7% 最突出;Claude Opus 4.7 在 GPQA Diamond 94.2% 與 HLE no tools 46.9% 領先,Kimi K2.6 則缺少完整四方同場數據。[2][7]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). . [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI).  GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...
The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...
Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...
| 高難度推理、審查、低容錯決策 | Claude Opus 4.7 | Claude Opus 4.7 在 GPQA Diamond 為 94.2%,在 Humanity’s Last Exam no-tools 為 46.9%,均高於同表中的 GPT-5.5 與 DeepSeek-V4-Pro-Max。[ |
| 高流量、成本敏感的 API 調用 | DeepSeek V4 | DeepSeek V4 的公開價格為每 100 萬輸入 token 1.74 美元、輸出 token 3.48 美元,低於 GPT-5.5 與 Claude Opus 4.7 的同口徑價格。[ |
| 開源 coding-agent、長流程 coding 實驗 | Kimi K2.6 | DocsBot 將 Kimi K2.6 描述為 Moonshot AI 的 open-source native multimodal agentic model,具 256K context;但它缺少與另外三款完整同場的公開基準。[ |
DeepSeek 的公開資料口徑不完全一致:價格來源多寫 DeepSeek V4 或 DeepSeek V4 Pro,部分 benchmark 則寫 DeepSeek-V4-Pro-Max。[1][
7][
17] 下表保留來源中的名稱,避免把不同設定視為完全相同的模型配置。
| 指標 | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 / V4-Pro-Max | Kimi K2.6 |
|---|---|---|---|---|
| Artificial Analysis Intelligence Index | xhigh 60;high 59。[ | Adaptive Reasoning, Max Effort 57。[ | 提供摘要未列出同口徑分數。[ | 提供摘要未列出同口徑分數。[ |
| BrowseComp | 84.4%。[ | 79.3%。[ | DeepSeek-V4-Pro-Max 83.4%。[ | 未見四方同場分數。 |
| Terminal-Bench 2.0 | 82.7%。[ | 69.4%。[ | 67.9%。[ | 66.70%,但來自 Kimi K2.6、Claude Opus 4.6、GPT-5.4 的另一組比較,不是四方同場。[ |
| SWE-Bench Pro | 58.6%。[ | 64.3%。[ | DeepSeek V4 Pro 55.4%。[ | 58.60%,但 Verdent 註明使用 Moonshot in-house harness,且比較對象不是 GPT-5.5、Claude Opus 4.7、DeepSeek V4 的完整同場。[ |
| GPQA Diamond | 93.6%。[ | 94.2%。[ | DeepSeek-V4-Pro-Max 90.1%。[ | 未見四方同場分數。 |
| Humanity’s Last Exam,no tools | 41.4%;GPT-5.5 Pro 為 43.1%。[ | 46.9%。[ | 37.7%。[ | 未見四方同場分數。 |
| API 價格,輸入 / 輸出,每 100 萬 token | 5 / 30 美元;1M context window。[ | 5 / 25 美元;1M context window。[ | 1.74 / 3.48 美元;1M context window。[ | 提供來源未給出同口徑價格;DocsBot 摘要稱 context 為 256K。[ |
Artificial Analysis 的可見摘要列出 Intelligence Index 前五名:GPT-5.5 xhigh 為 60、GPT-5.5 high 為 59、Claude Opus 4.7 Adaptive Reasoning, Max Effort 為 57,後面還有 Gemini 3.1 Pro Preview 與 GPT-5.4 xhigh 同為 57。[2]
這只能支持一個有限結論:在該摘要可見的 Intelligence Index 領先模型中,GPT-5.5 排在 Claude Opus 4.7 前面。[2] 它不能直接推出四款模型的完整總排名,因為同一可見摘要沒有給出 DeepSeek V4 與 Kimi K2.6 的同口徑 Intelligence Index 分數。[
2]
BrowseComp 偏向評估 agentic AI web browsing,尤其是高度容器化資訊查找;VentureBeat 摘要列出的結果是 GPT-5.5 84.4%、DeepSeek-V4-Pro-Max 83.4%、Claude Opus 4.7 79.3%。[7] 這代表在 web browsing 代理任務上,DeepSeek-V4-Pro-Max 與 GPT-5.5 的差距很小,但 Claude Opus 4.7 在同表中落後一些。[
7]
Terminal-Bench 2.0 的差距更明顯。VentureBeat 摘要列出 GPT-5.5 82.7%、Claude Opus 4.7 69.4%、DeepSeek 67.9%;Yahoo / Investing.com 也描述 Terminal-Bench 2.0 測試 command-line workflows,並列出 GPT-5.5 82.7%。[7][
31]
Kimi K2.6 的 Terminal-Bench 2.0 可見數字為 66.70%,但來源比較的是 Kimi K2.6、Claude Opus 4.6 與 GPT-5.4,不是 GPT-5.5、Claude Opus 4.7、DeepSeek V4 的同場表。[4]
DataCamp 的 DeepSeek V4 對比表列出 SWE-Bench Pro:DeepSeek V4 Pro 55.4%、GPT-5.5 58.6%、Claude Opus 4.7 64.3%。[17] Yahoo / Investing.com 也稱 GPT-5.5 在 SWE-Bench Pro 為 58.6%,而該測試評估 GitHub issue resolution。[
31]
Kimi K2.6 的 coding 數字值得單獨看。Verdent 摘要列出 Kimi K2.6 在 SWE-Bench Pro 為 58.60%、SWE-Bench Verified 為 80.20%、LiveCodeBench v6 為 89.60%;但同一摘要註明,Kimi K2.6 數字來源為 Moonshot AI official model card,且 SWE-Bench Pro 使用 Moonshot in-house harness。[4] 因此,Kimi K2.6 可以列入 coding-agent 候選,但不適合直接拿這些數字硬排進四方總榜。[
4]
實務上,若任務是大型 repo 修復、code review 或長時間 coding agent,不應只看單一 SWE 分數。Claude Opus 4.7 在可見 SWE-Bench Pro 對比中最高;GPT-5.5 在 Terminal-Bench 2.0 這類長流程工具任務上領先;Kimi K2.6 則需要用自己的 repo 與工作流補測。[17][
7][
4]
VentureBeat 摘要列出 GPQA Diamond:Claude Opus 4.7 94.2%、GPT-5.5 93.6%、DeepSeek-V4-Pro-Max 90.1%。同一摘要列出 Humanity’s Last Exam no-tools:Claude Opus 4.7 46.9%、GPT-5.5 41.4%、GPT-5.5 Pro 43.1%、DeepSeek-V4-Pro-Max 37.7%。[7]
LLM Stats 對 GPT-5.5 與 Claude Opus 4.7 的結論也指向同一方向:在雙方都報告的 10 個 benchmark 中,Claude Opus 4.7 領先 6 個,GPT-5.5 領先 4 個;Claude 的優勢集中在 reasoning-heavy 與 review-grade tests,而 GPT-5.5 的優勢集中在 long-running tool-use tests。[3]
Mashable 摘要列出三款模型的 API 價格:DeepSeek V4 為每 100 萬輸入 token 1.74 美元、每 100 萬輸出 token 3.48 美元,並標示 1M context window;GPT-5.5 為每 100 萬輸入 5 美元、輸出 30 美元,並標示 1M context window;Claude Opus 4.7 為每 100 萬輸入 5 美元、輸出 25 美元,並標示 1M context window。[1]
DataCamp 的 DeepSeek V4 對比摘要也使用相同價格口徑,並列出 DeepSeek V4 Pro、GPT-5.5、Claude Opus 4.7 的 context window 約為 1M tokens。[17] 在這些可見價格中,DeepSeek V4 明顯低於 GPT-5.5 與 Claude Opus 4.7;再加上 DeepSeek-V4-Pro-Max 在 BrowseComp 為 83.4%、接近 GPT-5.5 的 84.4%,它很適合作為成本敏感 API 路由的第一批測試對象。[
1][
7][
17]
Kimi K2.6 的同口徑 API 價格沒有出現在提供來源中;DocsBot 摘要則稱 Kimi K2.6 具 256K context,並將其描述為面向 long-horizon coding、coding-driven design、autonomous execution 與 swarm-based orchestration 的 open-source agentic model。[5]
對多數產品團隊來說,最務實的答案不是「只買哪一個模型」,而是先建立分層路由與回歸測試:
若只用可見公開資料初篩,GPT-5.5 是 agentic tool-use 與可見綜合排名的最強候選;Claude Opus 4.7 是推理與 review-grade 任務的最強候選之一;DeepSeek V4 是價格最有吸引力的高性價比候選;Kimi K2.6 則應放進開源 / coding-agent 實驗池,但目前證據不足以公平排入完整四方總榜。[2][
3][
1][
4][
5]
採購或上線前,建議用同一批真實任務做回歸測試:同一 prompt、同一工具權限、同一上下文長度、同一成功判準。公開 benchmark 的價值,是幫你決定先測誰;最終選型,仍應由你的產品場景、錯誤成本與 token 成本共同決定。[3][
7][
31]
Kimi K2.6 Kimi K2.6 is Moonshot AI's latest open-source native multimodal agentic model, advancing long-horizon coding, coding-driven design, proactive autonomous execution, and swarm-based task orchestration. It keeps the Kimi K2.5 1T parameter MoE archite...
DeepSeek-V4-Pro-Max’s best showing is on BrowseComp, the benchmark measuring agentic AI web browsing prowess (especially highly containerized information), where it scores 83.4%, narrowly behind GPT-5.5 at 84.4% andahead of Claude Opus 4.7 at 79.3%. On Term...
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
GPT‑5.5 reaches state-of-the-art performance across multiple benchmarks that reflect this kind of work. OnGDPval, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.5 scores 84.9%. On OSWorld-Verified, whic...
Louis Juricic 1 min read Investing.com -- OpenAI announced Thursday the release of GPT-5.5, its latest AI model now available to Plus, Pro, Business, and Enterprise users through ChatGPT and Codex platforms. The model achieved 82.7% accuracy on Terminal-Ben...