如果只問誰最強,答案反而不精準。這四款模型的公開資料來自不同來源、不同評測、不同推理模式,交集並不完整。比較合理的讀法是:GPT-5.5 在 ARC 與終端機風格的代理任務特別亮眼,Claude Opus 4.7 在 HLE 與 SWE-Bench Pro 更佔優,Kimi K2.6 是有競爭力的 coding/agentic 與開放權重路線,DeepSeek V4 則多半不是 raw score 冠軍,但 API 價格很有吸引力。[1][
2][
3][
4][
6][
8][
9][
13]
先看短版結論
- GPT-5.5:適合先拿來測 ARC、視覺/抽象推理,以及 terminal-style agent 任務。DocsBot 顯示 GPT-5.5 在 ARC-AGI-2 得到 85%,高於 Claude Opus 4.7 的 75.8%;VentureBeat 則列出 GPT-5.5 在 Terminal-Bench 2.0 得到 82.7%,高於 Claude 的 69.4% 與 DeepSeek 的 67.9%。[
1][
3]
- Claude Opus 4.7:在重推理與 code review 型任務上最值得先試。VentureBeat 顯示 Claude 在 Humanity’s Last Exam,簡稱 HLE,不使用工具與使用工具兩種設定都高於 GPT-5.5 與 DeepSeek;DataCamp 也列出 Claude 在 SWE-Bench Pro 得到 64.3%,高於 GPT-5.5 的 58.6% 與 DeepSeek V4 Pro 的 55.4%。[
3][
9]
- Kimi K2.6:不能簡單說它輸或贏,因為同場比較較少。Artificial Analysis 中 Kimi K2.6 得到 54,低於 GPT-5.5 medium 的 57,但高於 Claude Opus 4.7 non-reasoning high 的 52;AkitaOnRails 的 coding benchmark 則列出 Kimi K2.6 得到 87。[
13][
8]
- DeepSeek V4:更像價格效益選項,而不是這批資料中的最高分模型。Mashable 列出的 API 價格為每 100 萬輸入 token 1.74 美元、每 100 萬輸出 token 3.48 美元;相較之下,GPT-5.5 為 5/30 美元,Claude Opus 4.7 為 5/25 美元。[
2]
主要基準測試對照
表中的 — 代表提供的來源片段沒有可直接對照的分數。這點很重要:不同來源可能測的是不同模式、不同版本或不同任務設定。
| 評測/來源 | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4 | 怎麼解讀 |
|---|---|---|---|---|---|
| ARC-AGI-2,DocsBot | 85% | 75.8% | — | — | GPT-5.5 領先 Claude 9.2 個百分點。[ |
| ARC-AGI-1,DocsBot | 95% | 93.5% | — | — | GPT-5.5 小幅高於 Claude。[ |
| Artificial Analysis leaderboard | 57,GPT-5.5 medium | 52,Claude Opus 4.7 non-reasoning high | 54 | — | 在這個切面,GPT-5.5 高於 Kimi 與指定 Claude 模式;來源片段未列 DeepSeek V4。[ |
| Humanity’s Last Exam,無工具,VentureBeat | 41.4% | 46.9% | — | 37.7% | Claude 在列出的基本設定中最高。[ |
| Humanity’s Last Exam,有工具,VentureBeat | 52.2%;GPT-5.5 Pro 為 57.2% | 54.7% | — | 48.2% | Claude 高於一般 GPT-5.5,但 GPT-5.5 Pro 這一列高於 Claude。[ |
| Terminal-Bench 2.0,VentureBeat | 82.7% | 69.4% | — | 67.9% | 這是 GPT-5.5 在本批資料中最明顯的領先項目之一。[ |
| SWE-Bench Pro,DataCamp | 58.6% | 64.3% | — | 55.4%,DeepSeek V4 Pro | Claude 高於 GPT-5.5 與 DeepSeek V4 Pro。[ |
| SWE-Bench Verified,Verdent | — | 87.6% | 80.2% | — | 在這個 coding 切面,Claude 高於 Kimi。[ |
| Coding benchmark,AkitaOnRails | 96,GPT-5.5 xHigh/Codex | 97 | 87 | 78,V4 Flash;69,V4 Pro | Claude 與 GPT-5.5 幾乎並列;Kimi 高於兩個 DeepSeek V4 版本。[ |
為什麼不能直接宣布總冠軍
最大問題不是沒有分數,而是分數不一定能放在同一把尺上。Artificial Analysis 比的是 GPT-5.5 medium、Kimi K2.6 與 Claude Opus 4.7 non-reasoning high;AkitaOnRails 使用 GPT-5.5 xHigh/Codex,並把 DeepSeek V4 Flash 與 DeepSeek V4 Pro 分開列;VentureBeat 又另外列出 GPT-5.5 與 GPT-5.5 Pro。[13][
8][
3]
就算只看 GPT-5.5 與 Claude Opus 4.7,也不是單向輾壓。LLM Stats 指出,在兩家供應商都回報的 10 個 benchmark 中,Opus 4.7 領先 6 項,GPT-5.5 領先 4 項;Claude 的優勢集中在 reasoning-heavy 與 review-grade 測試,GPT-5.5 的優勢則集中在 long-running tool-use 與 shell-driven 任務。[4]
GPT-5.5 強在哪裡
GPT-5.5 最有說服力的亮點是 ARC 與 Terminal-Bench。DocsBot 顯示,GPT-5.5 在 ARC-AGI-2 得到 85%,Claude Opus 4.7 為 75.8%;在 ARC-AGI-1,GPT-5.5 為 95%,Claude Opus 4.7 為 93.5%。[1]
在 Terminal-Bench 2.0,GPT-5.5 得到 82.7%,明顯高於 Claude Opus 4.7 的 69.4% 與 DeepSeek 的 67.9%。[3] 這類測試比較貼近會使用終端機、工具、命令列流程的代理型工作。
Artificial Analysis 也把 GPT-5.5 medium 列在 57,高於 Kimi K2.6 的 54 與 Claude Opus 4.7 non-reasoning high 的 52。[13] 但這不是所有模式的總排名;LLM Stats 也同時顯示 Claude Opus 4.7 在部分推理與軟體工程評測中勝過 GPT-5.5。[
4]
Claude Opus 4.7 強在哪裡
Claude Opus 4.7 的強項比較集中在高難度推理、審查型任務與複雜程式碼理解。VentureBeat 列出的 Humanity’s Last Exam 無工具設定中,Claude Opus 4.7 為 46.9%,GPT-5.5 為 41.4%,DeepSeek 為 37.7%;使用工具後,Claude 為 54.7%,GPT-5.5 為 52.2%,DeepSeek 為 48.2%。[3]
在 SWE-Bench Pro,DataCamp 列出 Claude Opus 4.7 得到 64.3%,GPT-5.5 為 58.6%,DeepSeek V4 Pro 為 55.4%。[9] 這也符合 LLM Stats 的整體描述:Claude 在 GPQA、HLE 無工具、HLE 有工具、SWE-Bench Pro、MCP Atlas 與 FinanceAgent v1.1 領先 GPT-5.5。[
4]
Kimi K2.6 該怎麼看
Kimi K2.6 不容易被放進同一張完整排行榜,因為它沒有在每個來源中都和 GPT-5.5、Claude Opus 4.7、DeepSeek V4 同場出現。Artificial Analysis 的可見片段中,Kimi K2.6 得到 54,低於 GPT-5.5 medium 的 57,但高於 Claude Opus 4.7 non-reasoning high 的 52。[13]
在 AkitaOnRails 的 coding benchmark,Kimi K2.6 得到 87,低於 Claude Opus 4.7 的 97 與 GPT-5.5 xHigh/Codex 的 96,但高於 DeepSeek V4 Flash 的 78 與 DeepSeek V4 Pro 的 69。[8] Verdent 另列 SWE-Bench Verified:Kimi K2.6 為 80.2%,Claude Opus 4.7 為 87.6%。[
6]
Kimi 的實務差異在於開放權重與自架可能性。Verdent 指出,K2.6 weights 可在 Hugging Face 取得,並可透過 vLLM、SGLang 或 KTransformers 執行;同一來源也提到,在縮小 context 的 INT4 版本下,最低可行配置為 4× H100。[6] Hugging Face 的 README 還列出 Kimi K2.6 的 agentic 指標,例如 HLE-Full 搭配工具為 54.0、BrowseComp 為 83.2、DeepSearchQA f1-score 為 92.5、Toolathlon 為 50.0、MCPMark 為 55.9;但那張表主要把 Kimi 與 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 比較,不是本文四款模型的完整同場對照。[
25]
DeepSeek V4 顯示了什麼
在這批來源中,DeepSeek V4 比較像 value model,而不是最高 benchmark score 的模型。VentureBeat 顯示,DeepSeek 在 HLE 無工具、HLE 有工具與 Terminal-Bench 2.0 都低於 GPT-5.5 與 Claude Opus 4.7。[3] DataCamp 的 SWE-Bench Pro 也列出 DeepSeek V4 Pro 為 55.4%,低於 GPT-5.5 的 58.6% 與 Claude Opus 4.7 的 64.3%。[
9] AkitaOnRails 的 coding benchmark 中,DeepSeek V4 Flash 為 78,DeepSeek V4 Pro 為 69,低於同表的 Kimi K2.6、GPT-5.5 xHigh/Codex 與 Claude Opus 4.7。[
8]
不過,價格會改變產品決策。Mashable 列出 DeepSeek V4 的 API 價格為每 100 萬輸入 token 1.74 美元、每 100 萬輸出 token 3.48 美元;GPT-5.5 為 5/30 美元,Claude Opus 4.7 為 5/25 美元。[2] 這不代表 DeepSeek 是 benchmark 冠軍,但若你的任務是大量草稿、低風險處理、內部評估或需要大量嘗試的流程,它可能是更划算的起點。[
2][
3][
9]
不同任務,該先測哪一款?
- ARC、視覺推理、抽象 puzzle:先測 GPT-5.5。DocsBot 的 ARC-AGI-2 與 ARC-AGI-1 對照中,GPT-5.5 都高於 Claude Opus 4.7。[
1]
- 高難度推理與 HLE-style 任務:若比較基本模型列,先測 Claude Opus 4.7;但要注意 VentureBeat 的 GPT-5.5 Pro 在 HLE 有工具設定高於 Claude。[
3]
- Terminal、shell-driven agents、工具使用流程:先測 GPT-5.5。Terminal-Bench 2.0 是它在這批來源中最亮眼的直接結果之一。[
3][
4]
- SWE-Bench Pro、重 code review 的軟體工程:先測 Claude Opus 4.7。DataCamp 與 LLM Stats 都指向 Claude 在 SWE-Bench Pro 的優勢。[
9][
4]
- 開放權重、自架、coding/agentic 場景:如果 Hugging Face、vLLM、SGLang 或 KTransformers 的部署路線對你很重要,Kimi K2.6 值得進自家測試集。[
6]
- 高流量、成本敏感的實驗:如果每次呼叫的成本比最高分更重要,DeepSeek V4 值得列入第一輪候選。[
2][
3][
9]
總結
只看 benchmark,第一梯隊仍是 GPT-5.5 與 Claude Opus 4.7,但兩者強項不同。GPT-5.5 在 ARC 與 Terminal-Bench 的訊號更強;Claude Opus 4.7 在 HLE 與 SWE-Bench Pro 更有優勢。[1][
3][
4][
9] Kimi K2.6 是強力 coding/agentic 候選,尤其在需要開放權重或自架路線時更值得注意,但它與另外三款模型的完整同場比較較少。[
6][
8][
13] DeepSeek V4 在這批資料中的 raw score 多半不是最高,卻靠低 API 價格成為很有存在感的 price-performance 選項。[
2][
3][
9]




