studioglobal
熱門探索內容
報告已發布9 個來源

GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4:基準測試怎麼看

沒有一款模型在所有指標全面勝出:GPT 5.5 在 ARC AGI 2 達 85%,高於 Claude Opus 4.7 的 75.8%,並在 Terminal Bench 2.0 以 82.7% 明顯領先。[1][3] Claude Opus 4.7 在高難度推理與軟體工程評測較強:VentureBeat 的 HLE 數據與 DataCamp 的 SWE Bench Pro 都顯示 Claude 領先 GPT 5.5 與 DeepSeek V4。[3][9] Kimi K2.6 是值得測的 coding/agentic 與開放權重選項;DeepSeek V4 多數 raw score 不是最高,但 API 價格為每 100...

18K0
Сравнение четырёх AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 на фоне графиков бенчмарков
GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахСравнение бенчмарков показывает не одного абсолютного лидера, а разные сильные стороны моделей.
AI 提示詞

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro; вывод ограничен тем, что источники сравнивают разные режим.... Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.

openai.com

如果只問誰最強,答案反而不精準。這四款模型的公開資料來自不同來源、不同評測、不同推理模式,交集並不完整。比較合理的讀法是:GPT-5.5 在 ARC 與終端機風格的代理任務特別亮眼,Claude Opus 4.7 在 HLE 與 SWE-Bench Pro 更佔優,Kimi K2.6 是有競爭力的 coding/agentic 與開放權重路線,DeepSeek V4 則多半不是 raw score 冠軍,但 API 價格很有吸引力。[1][2][3][4][6][8][9][13]

先看短版結論

  • GPT-5.5:適合先拿來測 ARC、視覺/抽象推理,以及 terminal-style agent 任務。DocsBot 顯示 GPT-5.5 在 ARC-AGI-2 得到 85%,高於 Claude Opus 4.7 的 75.8%;VentureBeat 則列出 GPT-5.5 在 Terminal-Bench 2.0 得到 82.7%,高於 Claude 的 69.4% 與 DeepSeek 的 67.9%。[1][3]
  • Claude Opus 4.7:在重推理與 code review 型任務上最值得先試。VentureBeat 顯示 Claude 在 Humanity’s Last Exam,簡稱 HLE,不使用工具與使用工具兩種設定都高於 GPT-5.5 與 DeepSeek;DataCamp 也列出 Claude 在 SWE-Bench Pro 得到 64.3%,高於 GPT-5.5 的 58.6% 與 DeepSeek V4 Pro 的 55.4%。[3][9]
  • Kimi K2.6:不能簡單說它輸或贏,因為同場比較較少。Artificial Analysis 中 Kimi K2.6 得到 54,低於 GPT-5.5 medium 的 57,但高於 Claude Opus 4.7 non-reasoning high 的 52;AkitaOnRails 的 coding benchmark 則列出 Kimi K2.6 得到 87。[13][8]
  • DeepSeek V4:更像價格效益選項,而不是這批資料中的最高分模型。Mashable 列出的 API 價格為每 100 萬輸入 token 1.74 美元、每 100 萬輸出 token 3.48 美元;相較之下,GPT-5.5 為 5/30 美元,Claude Opus 4.7 為 5/25 美元。[2]

主要基準測試對照

表中的 代表提供的來源片段沒有可直接對照的分數。這點很重要:不同來源可能測的是不同模式、不同版本或不同任務設定。

評測/來源GPT-5.5Claude Opus 4.7Kimi K2.6DeepSeek V4怎麼解讀
ARC-AGI-2,DocsBot85%75.8%GPT-5.5 領先 Claude 9.2 個百分點。[1]
ARC-AGI-1,DocsBot95%93.5%GPT-5.5 小幅高於 Claude。[1]
Artificial Analysis leaderboard57,GPT-5.5 medium52,Claude Opus 4.7 non-reasoning high54在這個切面,GPT-5.5 高於 Kimi 與指定 Claude 模式;來源片段未列 DeepSeek V4。[13]
Humanity’s Last Exam,無工具,VentureBeat41.4%46.9%37.7%Claude 在列出的基本設定中最高。[3]
Humanity’s Last Exam,有工具,VentureBeat52.2%;GPT-5.5 Pro 為 57.2%54.7%48.2%Claude 高於一般 GPT-5.5,但 GPT-5.5 Pro 這一列高於 Claude。[3]
Terminal-Bench 2.0,VentureBeat82.7%69.4%67.9%這是 GPT-5.5 在本批資料中最明顯的領先項目之一。[3]
SWE-Bench Pro,DataCamp58.6%64.3%55.4%,DeepSeek V4 ProClaude 高於 GPT-5.5 與 DeepSeek V4 Pro。[9]
SWE-Bench Verified,Verdent87.6%80.2%在這個 coding 切面,Claude 高於 Kimi。[6]
Coding benchmark,AkitaOnRails96,GPT-5.5 xHigh/Codex978778,V4 Flash;69,V4 ProClaude 與 GPT-5.5 幾乎並列;Kimi 高於兩個 DeepSeek V4 版本。[8]

為什麼不能直接宣布總冠軍

最大問題不是沒有分數,而是分數不一定能放在同一把尺上。Artificial Analysis 比的是 GPT-5.5 medium、Kimi K2.6 與 Claude Opus 4.7 non-reasoning high;AkitaOnRails 使用 GPT-5.5 xHigh/Codex,並把 DeepSeek V4 Flash 與 DeepSeek V4 Pro 分開列;VentureBeat 又另外列出 GPT-5.5 與 GPT-5.5 Pro。[13][8][3]

就算只看 GPT-5.5 與 Claude Opus 4.7,也不是單向輾壓。LLM Stats 指出,在兩家供應商都回報的 10 個 benchmark 中,Opus 4.7 領先 6 項,GPT-5.5 領先 4 項;Claude 的優勢集中在 reasoning-heavy 與 review-grade 測試,GPT-5.5 的優勢則集中在 long-running tool-use 與 shell-driven 任務。[4]

GPT-5.5 強在哪裡

GPT-5.5 最有說服力的亮點是 ARC 與 Terminal-Bench。DocsBot 顯示,GPT-5.5 在 ARC-AGI-2 得到 85%,Claude Opus 4.7 為 75.8%;在 ARC-AGI-1,GPT-5.5 為 95%,Claude Opus 4.7 為 93.5%。[1]

在 Terminal-Bench 2.0,GPT-5.5 得到 82.7%,明顯高於 Claude Opus 4.7 的 69.4% 與 DeepSeek 的 67.9%。[3] 這類測試比較貼近會使用終端機、工具、命令列流程的代理型工作。

Artificial Analysis 也把 GPT-5.5 medium 列在 57,高於 Kimi K2.6 的 54 與 Claude Opus 4.7 non-reasoning high 的 52。[13] 但這不是所有模式的總排名;LLM Stats 也同時顯示 Claude Opus 4.7 在部分推理與軟體工程評測中勝過 GPT-5.5。[4]

Claude Opus 4.7 強在哪裡

Claude Opus 4.7 的強項比較集中在高難度推理、審查型任務與複雜程式碼理解。VentureBeat 列出的 Humanity’s Last Exam 無工具設定中,Claude Opus 4.7 為 46.9%,GPT-5.5 為 41.4%,DeepSeek 為 37.7%;使用工具後,Claude 為 54.7%,GPT-5.5 為 52.2%,DeepSeek 為 48.2%。[3]

在 SWE-Bench Pro,DataCamp 列出 Claude Opus 4.7 得到 64.3%,GPT-5.5 為 58.6%,DeepSeek V4 Pro 為 55.4%。[9] 這也符合 LLM Stats 的整體描述:Claude 在 GPQA、HLE 無工具、HLE 有工具、SWE-Bench Pro、MCP Atlas 與 FinanceAgent v1.1 領先 GPT-5.5。[4]

Kimi K2.6 該怎麼看

Kimi K2.6 不容易被放進同一張完整排行榜,因為它沒有在每個來源中都和 GPT-5.5、Claude Opus 4.7、DeepSeek V4 同場出現。Artificial Analysis 的可見片段中,Kimi K2.6 得到 54,低於 GPT-5.5 medium 的 57,但高於 Claude Opus 4.7 non-reasoning high 的 52。[13]

在 AkitaOnRails 的 coding benchmark,Kimi K2.6 得到 87,低於 Claude Opus 4.7 的 97 與 GPT-5.5 xHigh/Codex 的 96,但高於 DeepSeek V4 Flash 的 78 與 DeepSeek V4 Pro 的 69。[8] Verdent 另列 SWE-Bench Verified:Kimi K2.6 為 80.2%,Claude Opus 4.7 為 87.6%。[6]

Kimi 的實務差異在於開放權重與自架可能性。Verdent 指出,K2.6 weights 可在 Hugging Face 取得,並可透過 vLLM、SGLang 或 KTransformers 執行;同一來源也提到,在縮小 context 的 INT4 版本下,最低可行配置為 4× H100。[6] Hugging Face 的 README 還列出 Kimi K2.6 的 agentic 指標,例如 HLE-Full 搭配工具為 54.0、BrowseComp 為 83.2、DeepSearchQA f1-score 為 92.5、Toolathlon 為 50.0、MCPMark 為 55.9;但那張表主要把 Kimi 與 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 比較,不是本文四款模型的完整同場對照。[25]

DeepSeek V4 顯示了什麼

在這批來源中,DeepSeek V4 比較像 value model,而不是最高 benchmark score 的模型。VentureBeat 顯示,DeepSeek 在 HLE 無工具、HLE 有工具與 Terminal-Bench 2.0 都低於 GPT-5.5 與 Claude Opus 4.7。[3] DataCamp 的 SWE-Bench Pro 也列出 DeepSeek V4 Pro 為 55.4%,低於 GPT-5.5 的 58.6% 與 Claude Opus 4.7 的 64.3%。[9] AkitaOnRails 的 coding benchmark 中,DeepSeek V4 Flash 為 78,DeepSeek V4 Pro 為 69,低於同表的 Kimi K2.6、GPT-5.5 xHigh/Codex 與 Claude Opus 4.7。[8]

不過,價格會改變產品決策。Mashable 列出 DeepSeek V4 的 API 價格為每 100 萬輸入 token 1.74 美元、每 100 萬輸出 token 3.48 美元;GPT-5.5 為 5/30 美元,Claude Opus 4.7 為 5/25 美元。[2] 這不代表 DeepSeek 是 benchmark 冠軍,但若你的任務是大量草稿、低風險處理、內部評估或需要大量嘗試的流程,它可能是更划算的起點。[2][3][9]

不同任務,該先測哪一款?

  • ARC、視覺推理、抽象 puzzle:先測 GPT-5.5。DocsBot 的 ARC-AGI-2 與 ARC-AGI-1 對照中,GPT-5.5 都高於 Claude Opus 4.7。[1]
  • 高難度推理與 HLE-style 任務:若比較基本模型列,先測 Claude Opus 4.7;但要注意 VentureBeat 的 GPT-5.5 Pro 在 HLE 有工具設定高於 Claude。[3]
  • Terminal、shell-driven agents、工具使用流程:先測 GPT-5.5。Terminal-Bench 2.0 是它在這批來源中最亮眼的直接結果之一。[3][4]
  • SWE-Bench Pro、重 code review 的軟體工程:先測 Claude Opus 4.7。DataCamp 與 LLM Stats 都指向 Claude 在 SWE-Bench Pro 的優勢。[9][4]
  • 開放權重、自架、coding/agentic 場景:如果 Hugging Face、vLLM、SGLang 或 KTransformers 的部署路線對你很重要,Kimi K2.6 值得進自家測試集。[6]
  • 高流量、成本敏感的實驗:如果每次呼叫的成本比最高分更重要,DeepSeek V4 值得列入第一輪候選。[2][3][9]

總結

只看 benchmark,第一梯隊仍是 GPT-5.5Claude Opus 4.7,但兩者強項不同。GPT-5.5 在 ARC 與 Terminal-Bench 的訊號更強;Claude Opus 4.7 在 HLE 與 SWE-Bench Pro 更有優勢。[1][3][4][9] Kimi K2.6 是強力 coding/agentic 候選,尤其在需要開放權重或自架路線時更值得注意,但它與另外三款模型的完整同場比較較少。[6][8][13] DeepSeek V4 在這批資料中的 raw score 多半不是最高,卻靠低 API 價格成為很有存在感的 price-performance 選項。[2][3][9]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

  • 沒有一款模型在所有指標全面勝出:GPT 5.5 在 ARC AGI 2 達 85%,高於 Claude Opus 4.7 的 75.8%,並在 Terminal Bench 2.0 以 82.7% 明顯領先。[1][3]
  • Claude Opus 4.7 在高難度推理與軟體工程評測較強:VentureBeat 的 HLE 數據與 DataCamp 的 SWE Bench Pro 都顯示 Claude 領先 GPT 5.5 與 DeepSeek V4。[3][9]
  • Kimi K2.6 是值得測的 coding/agentic 與開放權重選項;DeepSeek V4 多數 raw score 不是最高,但 API 價格為每 100 萬輸入 token 1.74 美元、輸出 token 3.48 美元,價格優勢明顯。[2][6][8][13]

大家也會問

「GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4:基準測試怎麼看」的簡短答案是什麼?

沒有一款模型在所有指標全面勝出:GPT 5.5 在 ARC AGI 2 達 85%,高於 Claude Opus 4.7 的 75.8%,並在 Terminal Bench 2.0 以 82.7% 明顯領先。[1][3]

最值得優先驗證的重點是什麼?

沒有一款模型在所有指標全面勝出:GPT 5.5 在 ARC AGI 2 達 85%,高於 Claude Opus 4.7 的 75.8%,並在 Terminal Bench 2.0 以 82.7% 明顯領先。[1][3] Claude Opus 4.7 在高難度推理與軟體工程評測較強:VentureBeat 的 HLE 數據與 DataCamp 的 SWE Bench Pro 都顯示 Claude 領先 GPT 5.5 與 DeepSeek V4。[3][9]

接下來在實務上該怎麼做?

Kimi K2.6 是值得測的 coding/agentic 與開放權重選項;DeepSeek V4 多數 raw score 不是最高,但 API 價格為每 100 萬輸入 token 1.74 美元、輸出 token 3.48 美元,價格優勢明顯。[2][6][8][13]

下一步適合探索哪個相關主題?

繼續閱讀「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較:2026 年誰最值得信?」,從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較?

將這個答案與「DeepSeek V4 工程解析:1M 上下文、MoE 與 API 遷移重點」交叉比對。

開啟相關頁面

繼續深入研究

研究對話

研究問題

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI27 個來源

附引用的答案

По доступным фрагментам доказательств полноценное сравнение всех четырёх моделей “один к одному” сделать нельзя: есть частичные данные для GPT-5.5, Claude Opus 4.7 и Kimi K2.6, но в предоставленных источниках нет сопоставимых бенчмарков для DeepSeek V4. В имеющихся данных GPT-5.5 выглядит сильнее Claude Opus 4.7 на ARC-AGI-2 и немного выше Kimi K2.6 в общем рейтинге Artificial Analysis, а Kimi K2.6 имеет сильные отдельные результаты на агентных и coding-бенчмарках.

Key findings

МодельЧто есть по бенчмаркам в доступных данныхВывод
GPT-5.585% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium [5][6]Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.775.8% на ARC-AGI-2 против 85% у GPT-5.5 [5]В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.654 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual [6][3]Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам [7]Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

  • На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта [5].

  • В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе [6].

  • Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual [3].

  • Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя [7].

Evidence notes

  • Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% [5].

  • Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 [6].

  • Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках [3].

Limitations / uncertainty

  • Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.

  • Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score [7].

  • Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Если опираться только на предоставленные данные, GPT-5.5 выглядит лидером в имеющихся прямых сравнениях: он выше Claude Opus 4.7 на ARC-AGI-2 и выше Kimi K2.6 в фрагменте Artificial Analysis [5][6]. Kimi K2.6 имеет сильные подтверждённые результаты на агентных и coding-бенчмарках, включая SWE-bench Verified 65.8 [3]. Для DeepSeek V4 в предоставленных данных недостаточно benchmark-информации, поэтому корректно сравнить его с остальными по бенчмаркам невозможно [7].

來源