光看排行榜,這場四方對決很容易被簡化成「誰最強」。但如果你要把模型放進產品、代理流程或內部評估,真正的問題不是總冠軍,而是:你的工作負載比較像哪一個基準測試?
目前最整齊的共同比較表,主要涵蓋 GPT-5.5、部分項目中的 GPT-5.5 Pro、Claude Opus 4.7,以及 DeepSeek-V4-Pro-Max;Kimi K2.6 的資料則多半出現在另外的比較文章或模型卡整理中,因此四方直接對照沒有那麼乾淨 [4][
11][
13]。
一眼看懂:各場景暫時贏家
| 使用情境 | 較有依據的首選 | 判讀 |
|---|---|---|
| 科學推理 | Claude Opus 4.7 | GPQA Diamond 達 94.2%,高於 GPT-5.5 的 93.6% 與 DeepSeek-V4-Pro-Max 的 90.1% [ |
| 無工具專家推理 | Claude Opus 4.7 | Humanity’s Last Exam 無工具為 46.9%,高於 GPT-5.5 Pro 的 43.1%、GPT-5.5 的 41.4% 與 DeepSeek-V4-Pro-Max 的 37.7% [ |
| 工具輔助考題推理 | GPT-5.5 Pro | Humanity’s Last Exam with tools 為 57.2%,高於 Claude Opus 4.7 的 54.7% [ |
| 終端機與代理式運算 | GPT-5.5 | Terminal-Bench 2.0 為 82.7%,高於 Claude Opus 4.7 的 69.4% 與 DeepSeek-V4-Pro-Max 的 67.9% [ |
| 作業系統操作 | GPT-5.5 | OSWorld-Verified 為 78.7%,略高於 Claude Opus 4.7 的 78.0% [ |
| 前沿數學 | GPT-5.5 | FrontierMath Tiers 1–3 為 51.7%,高於 Claude Opus 4.7 的 43.8% [ |
| 共用表中的軟體工程 | Claude Opus 4.7 | SWE-Bench Pro / SWE Pro 為 64.3%,高於 GPT-5.5 的 58.6% 與 DeepSeek-V4-Pro-Max 的 55.4% [ |
| 網頁瀏覽與理解 | GPT-5.5 Pro | BrowseComp 為 90.1%,高於 GPT-5.5 的 84.4%、DeepSeek-V4-Pro-Max 的 83.4% 與 Claude Opus 4.7 的 79.3% [ |
| MCP 類公用工具流程 | Claude Opus 4.7 | MCP Atlas / MCPAtlas Public 為 79.1%,高於 GPT-5.5 的 75.3% 與 DeepSeek-V4-Pro-Max 的 73.6% [ |
| 視覺與文件分析 | Claude Opus 4.7 | 有來源報告其在 Vision & Document Arena 排名第一,並在圖表、作業與 OCR 子項勝出 [ |
| 成本敏感評估 | DeepSeek V4 | VentureBeat 稱 DeepSeek V4 以約 Opus 4.7 與 GPT-5.5 六分之一的成本提供接近前沿的智慧,但仍需用自己的工作負載驗證 [ |
| 最不適合硬排四方名次 | Kimi K2.6 | Kimi 有可參考分數,但多數來自與主表不同的比較脈絡 [ |
完整基準表:先分清同表與跨表
| 基準測試/能力 | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | DeepSeek V4 / V4 Pro Max | Kimi K2.6 | 較穩妥的解讀 |
|---|---|---|---|---|---|---|
| GPQA Diamond | 93.6% [ | 未報告 | 94.2% [ | DeepSeek-V4-Pro-Max 90.1% [ | 未報告 | Claude 在共用表領先 [ |
| Humanity’s Last Exam,無工具 | 41.4% [ | 43.1% [ | 46.9% [ | DeepSeek-V4-Pro-Max 37.7% [ | 未報告 | Claude 在共用表領先 [ |
| Humanity’s Last Exam,with tools | 52.2% [ | 57.2% [ | 54.7% [ | DeepSeek-V4-Pro-Max 48.2% [ | 另表為 54.0% [ | GPT-5.5 Pro 在共用表領先 [ |
| Terminal-Bench 2.0 | 82.7% [ | 未報告 | 69.4% [ | DeepSeek-V4-Pro-Max 67.9% [ | 另表為 66.7% [ | GPT-5.5 領先 [ |
| SWE-Bench Pro / SWE Pro | 58.6% [ | 未報告 | 64.3% [ | DeepSeek-V4-Pro-Max 55.4% [ | 另表為 58.6% [ | Claude 在共用表領先 [ |
| BrowseComp | 84.4% [ | 90.1% [ | 79.3% [ | DeepSeek-V4-Pro-Max 83.4% [ | 另表為 83.2% [ | GPT-5.5 Pro 在共用表領先 [ |
| MCP Atlas / MCPAtlas Public | 75.3% [ | 未報告 | 79.1% [ | DeepSeek-V4-Pro-Max 73.6% [ | 未報告 | Claude 領先 [ |
| OSWorld-Verified | 78.7% [ | 未報告 | 78.0% [ | 未報告 | 未報告 | GPT-5.5 小幅領先 Claude [ |
| FrontierMath Tiers 1–3 | 51.7% [ | 未報告 | 43.8% [ | 未報告 | 未報告 | GPT-5.5 領先 Claude [ |
| Vision & Document Arena | 未報告 | 未報告 | 報告為整體第一 [ | 未報告 | 未報告 | Claude 有唯一可引用結果 [ |
| AIME 2026 | 未報告 | 未報告 | 未報告 | 在所引 Kimi vs DeepSeek 表中未提供 [ | Thinking mode 為 96.4% [ | 是 Kimi 訊號,不是四方排名 [ |
| APEX Agents | 未報告 | 未報告 | 未報告 | 在所引 Kimi vs DeepSeek 表中未提供 [ | Thinking mode 為 27.9% [ | 是 Kimi 訊號,不是四方排名 [ |
| Context window | 未報告 | 未報告 | 某 Artificial Analysis 比較列為 1,000k tokens [ | 同一比較中 DeepSeek V4 Pro 列為 1,000k tokens [ | 未報告 | 該比較中 Claude 與 DeepSeek V4 Pro 相同 [ |
凡是混用來源的列,都要特別小心。Kimi K2.6 在另一個 Kimi-focused 比較中的分數有參考價值,但可信度不能等同於在同一套測試環境中與 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 並排跑出的結果 [4][
11][
13]。
GPT-5.5/GPT-5.5 Pro:終端、OS、數學與工具流更亮眼
GPT-5.5 最明確的勝項是 Terminal-Bench 2.0:82.7%,高於 Claude Opus 4.7 的 69.4% 與 DeepSeek-V4-Pro-Max 的 67.9% [4][
5]。在這批可引用數據中,這是差距相當大的項目之一。
它在 OSWorld-Verified 也領先 Claude Opus 4.7,但差距很小:78.7% 對 78.0% [5]。在 FrontierMath Tiers 1–3 上,GPT-5.5 的優勢較明顯,為 51.7%,高於 Claude 的 43.8% [
5]。
若任務重點是工具輔助推理或瀏覽,GPT-5.5 Pro 的位置更突出。它在 Humanity’s Last Exam with tools 取得 57.2%,高於 Claude Opus 4.7 的 54.7%、GPT-5.5 的 52.2% 與 DeepSeek-V4-Pro-Max 的 48.2% [4]。在 BrowseComp 上,GPT-5.5 Pro 也以 90.1% 領先 GPT-5.5 的 84.4%、DeepSeek-V4-Pro-Max 的 83.4% 與 Claude Opus 4.7 的 79.3% [
4]。
不過,GPT-5.5 並非所有推理項目都領先。Claude Opus 4.7 在 GPQA Diamond 以 94.2% 小幅勝過 GPT-5.5 的 93.6% [4]。另有 GPT-5.5 指南列出 GPT-5.5-only 的領域結果,例如 Harvey BigLaw Bench 91.7%、內部投資銀行基準 88.5%、BixBench 80.5%;但因同一摘錄未列出 Claude Opus 4.7、DeepSeek V4 與 Kimi K2.6 的對應分數,這些不應被解讀為四方勝利 [
7]。
Claude Opus 4.7:無工具推理、軟體工程與文件訊號強
Claude Opus 4.7 在主共用表中的無工具推理表現最好。它在 GPQA Diamond 達 94.2%,在 Humanity’s Last Exam 無工具為 46.9% [4]。同一張表中,Claude 也在 SWE-Bench Pro / SWE Pro 以 64.3% 領先,並在 MCP Atlas / MCPAtlas Public 以 79.1% 領先 [
4]。
Claude 在所引資料中的弱項,是終端機式操作。GPT-5.5 在 Terminal-Bench 2.0 以 82.7% 對 69.4% 領先 Claude 超過 13 個百分點;GPT-5.5 也在 OSWorld-Verified 與 FrontierMath Tiers 1–3 上領先 Claude [4][
5]。
在多模態與文件方面,Claude 有目前最強的可引用訊號。有來源報告 Claude Opus 4.7 在 Vision & Document Arena 拿下第一,Document Arena 較 Opus 4.6 提升 4 分,並在 diagram、homework、OCR 子類別勝出 [1]。但該來源沒有提供 GPT-5.5、DeepSeek V4、Kimi K2.6 的同場數字,因此這支持 Claude 的文件優勢,卻不構成完整四方多模態排名 [
1]。
DeepSeek V4:主表不常第一,但成本效益值得測
資料中的 DeepSeek 標籤不只一種。主共用表使用 DeepSeek-V4-Pro-Max;Artificial Analysis 的比較則使用 DeepSeek V4 Pro,並列出 1,000k-token context window [4][
3]。這些名稱不應自動視為完全可互換。
在主共用表中,DeepSeek-V4-Pro-Max 具競爭力,但沒有領先任何一列。它在 GPQA Diamond 為 90.1%,Humanity’s Last Exam 無工具為 37.7%,Humanity’s Last Exam with tools 為 48.2%,Terminal-Bench 2.0 為 67.9%,SWE-Bench Pro / SWE Pro 為 55.4%,BrowseComp 為 83.4%,MCP Atlas / MCPAtlas Public 為 73.6% [4]。
DeepSeek 最值得注意的引用說法,是成本效益而非單項跑分冠軍。VentureBeat 形容 DeepSeek V4 能以約 Opus 4.7 與 GPT-5.5 六分之一的成本,提供接近前沿的智慧 [4]。這是把 DeepSeek 放進候選名單的理由,但不是跳過自家測試的理由。
若你關心長上下文,Artificial Analysis 的一個比較列出 DeepSeek V4 Pro 與 Claude Opus 4.7 同為 1,000k-token context window [3]。這只支持該比較中所列配置的相同上下文長度,不應擴大解讀成所有 DeepSeek 或 Claude 模式都一樣 [
3]。
Kimi K2.6:有亮點,但最難做乾淨四方排名
Kimi K2.6 是這組模型中最難直接排名的一個,因為它沒有出現在 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 的主共用表中 [4]。
一個 Kimi-focused 比較列出 K2.6 在 SWE-Bench Pro 為 58.6%、SWE-Bench Verified 為 80.2%、Terminal-Bench 2.0 為 66.7%、Humanity’s Last Exam with tools 為 54.0%、LiveCodeBench v6 為 89.6% [13]。該來源稱 K2.6 數字來自 Moonshot AI 官方模型卡,但比較對象主要是 Claude Opus 4.6 與 GPT-5.4,而不是本文這組精確四方名單 [
13]。
另一個 Kimi vs DeepSeek 比較列出 Kimi K2.6 在 Thinking mode 下 AIME 2026 為 96.4%、APEX Agents 為 27.9%,以及在 Thinking mode 與 context management 下 BrowseComp 為 83.2% [11]。同一來源中,DeepSeek-V4 Pro 的 BrowseComp 為 83.4%,但 AIME 2026 與 APEX Agents 沒有 DeepSeek 對應值 [
11]。
所以,Kimi K2.6 值得測,尤其是程式、代理式任務、數學與瀏覽場景;但現有來源不足以支撐它與 GPT-5.5、Claude Opus 4.7 在同一套基準上做總排名 [11][
13]。
你應該先測哪一個?
- 若任務是終端機代理、OS 操作或 FrontierMath 類型工作,先測 GPT-5.5;它在所引 Terminal-Bench 2.0、OSWorld-Verified 與 FrontierMath 結果中領先 [
4][
5]。
- 若工具輔助推理或瀏覽是核心,先測 GPT-5.5 Pro;它在主共用表中的 Humanity’s Last Exam with tools 與 BrowseComp 領先 [
4]。
- 若重點是 GPQA 類科學推理、無工具專家問答、SWE-Bench Pro 類軟體工程、MCP 類工作流,或文件密集的多模態工作,先測 Claude Opus 4.7 [
4][
1]。
- 若主要限制是成本,而且你可以自行做品質驗證,先把 DeepSeek V4 放進候選;目前最強的引用優勢是約為 Opus 4.7 與 GPT-5.5 六分之一成本的說法 [
4]。
- 若你特別想驗證 Kimi K2.6 的程式、代理、數學與瀏覽分數,可以先測 Kimi;但務必用與其他模型相同的 prompts、工具、上下文限制、延遲目標與評分規則 [
11][
13]。
跑分的坑:不要把 0.6 分看成定論
這不是一張萬能排行榜。來源混用了 base 與 Pro 變體,包括 GPT-5.5、GPT-5.5 Pro、DeepSeek-V4-Pro-Max、DeepSeek V4 Pro、Claude Opus 4.7 與 Kimi K2.6 [3][
4][
11][
13]。部分數字也屬供應商報告;OpenAI 也註明其 GPT 的 ARC 評估以 reasoning effort 設為 xhigh,並在研究環境中執行,結果可能與 production ChatGPT 略有不同 [
5][
8]。
差距很小的項目,只能當作方向性訊號。Claude 在 GPQA Diamond 對 GPT-5.5 的領先是 0.6 個百分點;GPT-5.5 在 OSWorld-Verified 對 Claude 的領先是 0.7 個百分點 [4][
5]。相對地,較大的差距更有操作價值:GPT-5.5 在 Terminal-Bench 2.0 對 Claude 的領先超過 13 個百分點,在 FrontierMath 對 Claude 的領先為 7.9 個百分點 [
5]。
實務結論很簡單:GPT-5.5、Claude Opus 4.7、DeepSeek V4 與 Kimi K2.6 之間沒有單一總冠軍。先找出最像你真實工作負載的基準測試,再用你實際能部署的模型重跑同一套評估,才是比較穩的選型方式。




