報告已發布3 個月前Last edited 2 個月前18 個來源

GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4：基準測試誰領先？

可比較的公開表格並沒有給出單一總冠軍：Claude Opus 4.7 在 GPQA Diamond 以 94.2% 領先，並在 HLE 無工具情境拿到 46.9% [6]。 GPT 5.5 在 Terminal Bench 2.0 以 82.7% 明顯領先；GPT 5.5 Pro 則在 HLE 搭配工具時達 57.2%，BrowseComp 達 90.1% [6]。

使用 Studio Global AI 搜尋並查證事實瀏覽更多熱門頁面

Сравнение AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам — GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахИллюстрация к сравнению GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по ключевым AI-бенчмаркам.
AI 提示詞
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond — 94.2% — и HLE без инструментов — 46.9%, GPT 5.5 — в Terminal Bench 2.0 с 82.7%, а GPT 5.5 Pro — в HLE с инструментами и BrowseComp.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2.6 vs GPT-5.5 vs DeepSeek V4](https://www.youtube.com/watch?v=hqPVqQtgWOc). 🤯xCreate 8.4K views • 1 day ago Live Playlist ()Mix (50+)](https://www.youtube.com/watch?v=3928" source context "Kimi K2.6 vs GPT-5.5 vs DeepSeek V4 - YouTube" Reference image 2: visual subject "# GPT-5.5vs Claude Opus 4.7. Get a detailed comparison of AI language modelsOpenAI's GPT-5.5andAnthropic's
openai.com

先說結論：這不是一場能用一句「誰最強」收尾的比賽。最接近同場比較的公開表格涵蓋 GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7 與 DeepSeek-V4-Pro-Max；Kimi K2.6 的數據則主要來自 Hugging Face 模型卡與 eval 檔，因此不宜硬當成同一輪測試的直接對戰。

還有一個容易混淆的地方：DeepSeek 在主要比較表中是 DeepSeek-V4-Pro-Max；但另一筆 SWE-Bench Verified 資料談的是 DeepSeek V4-Pro，不是 Pro-Max 。所以比較時應說「不同 DeepSeek V4 版本在不同來源有不同結果」，而不是把所有 V4 數字混成同一個分數。

先看怎麼選

**純推理、不能用工具：**優先測 Claude Opus 4.7。它在 GPQA Diamond 與 Humanity’s Last Exam 無工具情境都領先同表模型。
**終端機與代理式任務：**GPT-5.5 最突出。Terminal-Bench 2.0 達 82.7%，高於 Claude Opus 4.7 的 69.4% 與 DeepSeek-V4-Pro-Max 的 67.9% 。
**工具輔助推理與瀏覽：**GPT-5.5 Pro 值得優先看。它在 HLE 搭配工具時為 57.2%，BrowseComp 為 90.1% 。
**程式開發與可取得權重的實驗：**Kimi K2.6 應獨立評估。Hugging Face 模型卡列出 SWE-Bench Verified 80.2、SWE-Bench Pro 58.6、Terminal-Bench 2.0 66.7 。另有來源指出 K2.6 權重可在 Hugging Face 取得，並可透過 vLLM、SGLang 或 KTransformers 執行。
**成本比第一名更重要：**DeepSeek V4 在這組基準測試中不是總冠軍，但 Mashable 與 DataCamp 引述的 API 價格為每 100 萬 input tokens 1.74 美元、每 100 萬 output tokens 3.48 美元；相比之下，GPT-5.5 為 5／30 美元，Claude Opus 4.7 為 5／25 美元。

公開數據總表

基準測試	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	依現有數據領先者
GPQA Diamond	93.6%	未提供	94.2%	DeepSeek-V4-Pro-Max：90.1%	未提供	Claude Opus 4.7
Humanity’s Last Exam，無工具	41.4%	43.1%	46.9%	DeepSeek-V4-Pro-Max：37.7%	未提供	Claude Opus 4.7
Humanity’s Last Exam，搭配工具	52.2%	57.2%	54.7%	DeepSeek-V4-Pro-Max：48.2%	未提供	GPT-5.5 Pro
Terminal-Bench 2.0	82.7%	未提供	69.4%	DeepSeek-V4-Pro-Max：67.9%	66.7	GPT-5.5
SWE-Bench Pro / SWE Pro	58.6%	未提供	64.3%	DeepSeek-V4-Pro-Max：55.4%	58.6	Claude Opus 4.7
BrowseComp	84.4%	90.1%	79.3%	DeepSeek-V4-Pro-Max：83.4%	未提供	GPT-5.5 Pro
MCP Atlas / MCPAtlas Public	75.3%	未提供	79.1%	DeepSeek-V4-Pro-Max：73.6%	未提供	Claude Opus 4.7
SWE-Bench Verified	未提供	未提供	另一比較列出 87.6%	DeepSeek V4-Pro 為 80.6%，不是 Pro-Max	80.2	缺少四者共同比較列

表中的「未提供」是指對應來源沒有列出該數值，不代表模型得分為零。

推理能力：Claude 無工具較強，GPT-5.5 Pro 在工具場景反超

在 GPQA Diamond，Claude Opus 4.7 與 GPT-5.5 的差距很小：94.2% 對 93.6%，DeepSeek-V4-Pro-Max 則為 90.1% 。但在 Humanity’s Last Exam 無工具情境，Claude 的優勢更明顯：46.9%，高於 GPT-5.5 的 41.4%、GPT-5.5 Pro 的 43.1%，以及 DeepSeek-V4-Pro-Max 的 37.7% 。

不過，只要允許使用工具，排序就改變了。HLE 搭配工具時，GPT-5.5 Pro 達 57.2%，Claude Opus 4.7 為 54.7%，GPT-5.5 為 52.2%，DeepSeek-V4-Pro-Max 為 48.2% 。因此較精準的說法是：Claude 在純推理較突出；GPT-5.5 Pro 在工具輔助推理的這條測試線上領先。

Coding 與代理式任務：GPT-5.5 在 Terminal-Bench 拉開差距

這組數據中，GPT-5.5 最明顯的勝點是 Terminal-Bench 2.0：82.7%，高於 Claude Opus 4.7 的 69.4% 與 DeepSeek-V4-Pro-Max 的 67.9% 。Kimi K2.6 的 Hugging Face 模型卡列出 Terminal-Bench 2.0 為 66.7；LLM Stats 的獨立榜單也列出 Kimi K2.6 為 0.667、Claude Opus 4.7 為 0.694 。這代表 Kimi 在這條線上接近 Claude 與 DeepSeek，但仍明顯低於 GPT-5.5 的主要比較表結果。

SWE-Bench Pro / SWE Pro 的局面不同：Claude Opus 4.7 以 64.3% 領先，GPT-5.5 為 58.6%，DeepSeek-V4-Pro-Max 為 55.4% 。Kimi K2.6 的 Hugging Face 模型卡也列出 SWE-Bench Pro 58.6，但它不是同一個共同比較表的同場測試，因此只能作為參考，不宜直接判定並列。

至於 SWE-Bench Verified，更不適合硬排四者名次。Kimi K2.6 有模型卡與 eval 檔列出的 80.2 ；另一篇 DeepSeek V4 介紹則列出 Claude Opus 4.7 為 87.6%、DeepSeek V4-Pro 為 80.6%，但這不是 DeepSeek-V4-Pro-Max，也沒有同時列出 GPT-5.5 的完整對照。

四個模型各自適合什麼場景？

GPT-5.5 與 GPT-5.5 Pro

GPT-5.5 最亮眼的是 Terminal-Bench 2.0：82.7%，是主要比較表中該列的最佳成績。GPT-5.5 Pro 並非每一列都有數據，但在有列出的項目中很強：HLE 搭配工具為 57.2%，BrowseComp 為 90.1%，兩者都位居該表第一。

如果你的任務偏向終端機操作、長步驟代理式流程，GPT-5.5 是第一個該測的候選；若重點是工具使用、瀏覽與外部動作輔助推理，GPT-5.5 Pro 更值得優先驗證。

Claude Opus 4.7

Claude Opus 4.7 在主要比較表中拿下多個第一：GPQA Diamond 94.2%、HLE 無工具 46.9%、SWE-Bench Pro / SWE Pro 64.3%、MCP Atlas / MCPAtlas Public 79.1% 。它的弱點不是「不強」，而是特定場景被 GPT-5.5 系列超過：Terminal-Bench 2.0 落後 GPT-5.5，HLE 搭配工具與 BrowseComp 則落後 GPT-5.5 Pro 。

若你需要的是不依賴工具的高難度推理，或接近 SWE-Bench Pro 類型的程式開發任務，Claude Opus 4.7 是很合理的首選測試對象。

Kimi K2.6

Kimi K2.6 不能與其他三者做嚴格同場排名，因為本文引用的 Kimi 數字來自 Hugging Face 模型卡與 eval 檔，而不是 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 所在的主要比較表。

但作為 coding 候選，Kimi K2.6 很值得看：模型卡列出 SWE-Bench Verified 80.2、SWE-Bench Pro 58.6、SWE-Bench Multilingual 76.7、Terminal-Bench 2.0 66.7、OSWorld-Verified 73.1 。此外，來源指出 K2.6 權重可在 Hugging Face 取得，並能透過 vLLM、SGLang 或 KTransformers 執行。對需要自行部署、內部評測或在本地環境做實驗的團隊，這一點比單一榜單名次更有實務價值。

DeepSeek V4

主要比較表中的 DeepSeek 是 DeepSeek-V4-Pro-Max 。在該表列出的項目中，它沒有拿到第一：GPQA Diamond 90.1%、HLE 無工具 37.7%、HLE 搭配工具 48.2%、Terminal-Bench 2.0 67.9%、SWE-Bench Pro / SWE Pro 55.4%、BrowseComp 83.4%、MCP Atlas / MCPAtlas Public 73.6% 。

DeepSeek V4 在這組資料中的強項不是絕對領先，而是價格。Mashable 與 DataCamp 列出的 API 價格為：DeepSeek V4 每 100 萬 input tokens 1.74 美元、每 100 萬 output tokens 3.48 美元；GPT-5.5 為 5／30 美元，Claude Opus 4.7 為 5／25 美元。如果你的產品或工作流高度受成本限制，DeepSeek V4 值得放進自己的 eval；但不能因此把它說成這份 benchmark 表的冠軍。

比較時最該注意的限制

**沒有一個共同測試涵蓋所有模型與所有指標。**主要表格涵蓋 GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7 與 DeepSeek-V4-Pro-Max；Kimi K2.6 來自另外的 Hugging Face 資料。
**DeepSeek V4 不是單一數字。**主要表格是 DeepSeek-V4-Pro-Max；SWE-Bench Verified 的另一筆數字則是 DeepSeek V4-Pro 。
**GPT-5.5 Pro 並非每列都有資料。**不能把它在 HLE 搭配工具或 BrowseComp 的優勢，自動推到沒有列出 Pro 成績的項目。
**Kimi K2.6 最好用自己的任務再測一次。**Hugging Face 結果很有參考價值，但不是與 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 同一張比較表的結果。

總結

若只看主要比較表的共同欄位，Claude Opus 4.7 贏在 GPQA Diamond、HLE 無工具、SWE-Bench Pro 與 MCP Atlas；GPT-5.5 贏在 Terminal-Bench 2.0；GPT-5.5 Pro 贏在 HLE 搭配工具與 BrowseComp 。Kimi K2.6 不是同場比較的一員，但憑 Hugging Face 上的 coding 數據與可取得權重，值得被單獨納入工程評測。DeepSeek V4 在這些 benchmark 列中不是領先者，卻因較低 API 價格，仍是成本敏感場景中值得測試的選項。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

大家也會問