報告已發布2026年4月28日Last edited 2026年5月6日9 個來源

GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4：基準測試怎麼看

沒有一款模型在所有指標全面勝出：GPT 5.5 在 ARC AGI 2 達 85%，高於 Claude Opus 4.7 的 75.8%，並在 Terminal Bench 2.0 以 82.7% 明顯領先。[1][3] Claude Opus 4.7 在高難度推理與軟體工程評測較強：VentureBeat 的 HLE 數據與 DataCamp 的 SWE Bench Pro 都顯示 Claude 領先 GPT 5.5 與 DeepSeek V4。[3][9] Kimi K2.6 是值得測的 coding／agentic 與開放權重選項；DeepSeek V4 多數 raw score 不是最高，但 API 價格為每 100...

使用 Studio Global AI 搜尋並查證事實探索更多內容

18K0

Сравнение четырёх AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 на фоне графиков бенчмарков — GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахСравнение бенчмарков показывает не одного абсолютного лидера, а разные сильные стороны моделей.
AI 提示詞
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro; вывод ограничен тем, что источники сравнивают разные режим.... Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.
openai.com

如果只問誰最強，答案反而不精準。這四款模型的公開資料來自不同來源、不同評測、不同推理模式，交集並不完整。比較合理的讀法是：GPT-5.5 在 ARC 與終端機風格的代理任務特別亮眼，Claude Opus 4.7 在 HLE 與 SWE-Bench Pro 更佔優，Kimi K2.6 是有競爭力的 coding／agentic 與開放權重路線，DeepSeek V4 則多半不是 raw score 冠軍，但 API 價格很有吸引力。^[1]^[2]^[3]^[4]^[6]^[8]^[9]^[13]

先看短版結論

GPT-5.5：適合先拿來測 ARC、視覺／抽象推理，以及 terminal-style agent 任務。DocsBot 顯示 GPT-5.5 在 ARC-AGI-2 得到 85%，高於 Claude Opus 4.7 的 75.8%；VentureBeat 則列出 GPT-5.5 在 Terminal-Bench 2.0 得到 82.7%，高於 Claude 的 69.4% 與 DeepSeek 的 67.9%。^[1]^[3]
Claude Opus 4.7：在重推理與 code review 型任務上最值得先試。VentureBeat 顯示 Claude 在 Humanity’s Last Exam，簡稱 HLE，不使用工具與使用工具兩種設定都高於 GPT-5.5 與 DeepSeek；DataCamp 也列出 Claude 在 SWE-Bench Pro 得到 64.3%，高於 GPT-5.5 的 58.6% 與 DeepSeek V4 Pro 的 55.4%。^[3]^[9]
Kimi K2.6：不能簡單說它輸或贏，因為同場比較較少。Artificial Analysis 中 Kimi K2.6 得到 54，低於 GPT-5.5 medium 的 57，但高於 Claude Opus 4.7 non-reasoning high 的 52；AkitaOnRails 的 coding benchmark 則列出 Kimi K2.6 得到 87。^[13]^[8]
DeepSeek V4：更像價格效益選項，而不是這批資料中的最高分模型。Mashable 列出的 API 價格為每 100 萬輸入 token 1.74 美元、每 100 萬輸出 token 3.48 美元；相較之下，GPT-5.5 為 5／30 美元，Claude Opus 4.7 為 5／25 美元。^[2]

主要基準測試對照

表中的 — 代表提供的來源片段沒有可直接對照的分數。這點很重要：不同來源可能測的是不同模式、不同版本或不同任務設定。

評測／來源	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	怎麼解讀
ARC-AGI-2，DocsBot	85%	75.8%	—	—	GPT-5.5 領先 Claude 9.2 個百分點。^[1]
ARC-AGI-1，DocsBot	95%	93.5%	—	—	GPT-5.5 小幅高於 Claude。^[1]
Artificial Analysis leaderboard	57，GPT-5.5 medium	52，Claude Opus 4.7 non-reasoning high	54	—	在這個切面，GPT-5.5 高於 Kimi 與指定 Claude 模式；來源片段未列 DeepSeek V4。^[13]
Humanity’s Last Exam，無工具，VentureBeat	41.4%	46.9%	—	37.7%	Claude 在列出的基本設定中最高。^[3]
Humanity’s Last Exam，有工具，VentureBeat	52.2%；GPT-5.5 Pro 為 57.2%	54.7%	—	48.2%	Claude 高於一般 GPT-5.5，但 GPT-5.5 Pro 這一列高於 Claude。^[3]
Terminal-Bench 2.0，VentureBeat	82.7%	69.4%	—	67.9%	這是 GPT-5.5 在本批資料中最明顯的領先項目之一。^[3]
SWE-Bench Pro，DataCamp	58.6%	64.3%	—	55.4%，DeepSeek V4 Pro	Claude 高於 GPT-5.5 與 DeepSeek V4 Pro。^[9]
SWE-Bench Verified，Verdent	—	87.6%	80.2%	—	在這個 coding 切面，Claude 高於 Kimi。^[6]
Coding benchmark，AkitaOnRails	96，GPT-5.5 xHigh／Codex	97	87	78，V4 Flash；69，V4 Pro	Claude 與 GPT-5.5 幾乎並列；Kimi 高於兩個 DeepSeek V4 版本。^[8]

為什麼不能直接宣布總冠軍

最大問題不是沒有分數，而是分數不一定能放在同一把尺上。Artificial Analysis 比的是 GPT-5.5 medium、Kimi K2.6 與 Claude Opus 4.7 non-reasoning high；AkitaOnRails 使用 GPT-5.5 xHigh／Codex，並把 DeepSeek V4 Flash 與 DeepSeek V4 Pro 分開列；VentureBeat 又另外列出 GPT-5.5 與 GPT-5.5 Pro。^[13]^[8]^[3]

就算只看 GPT-5.5 與 Claude Opus 4.7，也不是單向輾壓。LLM Stats 指出，在兩家供應商都回報的 10 個 benchmark 中，Opus 4.7 領先 6 項，GPT-5.5 領先 4 項；Claude 的優勢集中在 reasoning-heavy 與 review-grade 測試，GPT-5.5 的優勢則集中在 long-running tool-use 與 shell-driven 任務。^[4]

GPT-5.5 強在哪裡

GPT-5.5 最有說服力的亮點是 ARC 與 Terminal-Bench。DocsBot 顯示，GPT-5.5 在 ARC-AGI-2 得到 85%，Claude Opus 4.7 為 75.8%；在 ARC-AGI-1，GPT-5.5 為 95%，Claude Opus 4.7 為 93.5%。^[1]

在 Terminal-Bench 2.0，GPT-5.5 得到 82.7%，明顯高於 Claude Opus 4.7 的 69.4% 與 DeepSeek 的 67.9%。^[3] 這類測試比較貼近會使用終端機、工具、命令列流程的代理型工作。

Artificial Analysis 也把 GPT-5.5 medium 列在 57，高於 Kimi K2.6 的 54 與 Claude Opus 4.7 non-reasoning high 的 52。^[13] 但這不是所有模式的總排名；LLM Stats 也同時顯示 Claude Opus 4.7 在部分推理與軟體工程評測中勝過 GPT-5.5。^[4]

Claude Opus 4.7 強在哪裡

Claude Opus 4.7 的強項比較集中在高難度推理、審查型任務與複雜程式碼理解。VentureBeat 列出的 Humanity’s Last Exam 無工具設定中，Claude Opus 4.7 為 46.9%，GPT-5.5 為 41.4%，DeepSeek 為 37.7%；使用工具後，Claude 為 54.7%，GPT-5.5 為 52.2%，DeepSeek 為 48.2%。^[3]

在 SWE-Bench Pro，DataCamp 列出 Claude Opus 4.7 得到 64.3%，GPT-5.5 為 58.6%，DeepSeek V4 Pro 為 55.4%。^[9] 這也符合 LLM Stats 的整體描述：Claude 在 GPQA、HLE 無工具、HLE 有工具、SWE-Bench Pro、MCP Atlas 與 FinanceAgent v1.1 領先 GPT-5.5。^[4]

Kimi K2.6 該怎麼看

Kimi K2.6 不容易被放進同一張完整排行榜，因為它沒有在每個來源中都和 GPT-5.5、Claude Opus 4.7、DeepSeek V4 同場出現。Artificial Analysis 的可見片段中，Kimi K2.6 得到 54，低於 GPT-5.5 medium 的 57，但高於 Claude Opus 4.7 non-reasoning high 的 52。^[13]

在 AkitaOnRails 的 coding benchmark，Kimi K2.6 得到 87，低於 Claude Opus 4.7 的 97 與 GPT-5.5 xHigh／Codex 的 96，但高於 DeepSeek V4 Flash 的 78 與 DeepSeek V4 Pro 的 69。^[8] Verdent 另列 SWE-Bench Verified：Kimi K2.6 為 80.2%，Claude Opus 4.7 為 87.6%。^[6]

Kimi 的實務差異在於開放權重與自架可能性。Verdent 指出，K2.6 weights 可在 Hugging Face 取得，並可透過 vLLM、SGLang 或 KTransformers 執行；同一來源也提到，在縮小 context 的 INT4 版本下，最低可行配置為 4× H100。^[6] Hugging Face 的 README 還列出 Kimi K2.6 的 agentic 指標，例如 HLE-Full 搭配工具為 54.0、BrowseComp 為 83.2、DeepSearchQA f1-score 為 92.5、Toolathlon 為 50.0、MCPMark 為 55.9；但那張表主要把 Kimi 與 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 比較，不是本文四款模型的完整同場對照。^[25]

DeepSeek V4 顯示了什麼

在這批來源中，DeepSeek V4 比較像 value model，而不是最高 benchmark score 的模型。VentureBeat 顯示，DeepSeek 在 HLE 無工具、HLE 有工具與 Terminal-Bench 2.0 都低於 GPT-5.5 與 Claude Opus 4.7。^[3] DataCamp 的 SWE-Bench Pro 也列出 DeepSeek V4 Pro 為 55.4%，低於 GPT-5.5 的 58.6% 與 Claude Opus 4.7 的 64.3%。^[9] AkitaOnRails 的 coding benchmark 中，DeepSeek V4 Flash 為 78，DeepSeek V4 Pro 為 69，低於同表的 Kimi K2.6、GPT-5.5 xHigh／Codex 與 Claude Opus 4.7。^[8]

不過，價格會改變產品決策。Mashable 列出 DeepSeek V4 的 API 價格為每 100 萬輸入 token 1.74 美元、每 100 萬輸出 token 3.48 美元；GPT-5.5 為 5／30 美元，Claude Opus 4.7 為 5／25 美元。^[2] 這不代表 DeepSeek 是 benchmark 冠軍，但若你的任務是大量草稿、低風險處理、內部評估或需要大量嘗試的流程，它可能是更划算的起點。^[2]^[3]^[9]

不同任務，該先測哪一款？

ARC、視覺推理、抽象 puzzle：先測 GPT-5.5。DocsBot 的 ARC-AGI-2 與 ARC-AGI-1 對照中，GPT-5.5 都高於 Claude Opus 4.7。^[1]
高難度推理與 HLE-style 任務：若比較基本模型列，先測 Claude Opus 4.7；但要注意 VentureBeat 的 GPT-5.5 Pro 在 HLE 有工具設定高於 Claude。^[3]
Terminal、shell-driven agents、工具使用流程：先測 GPT-5.5。Terminal-Bench 2.0 是它在這批來源中最亮眼的直接結果之一。^[3]^[4]
SWE-Bench Pro、重 code review 的軟體工程：先測 Claude Opus 4.7。DataCamp 與 LLM Stats 都指向 Claude 在 SWE-Bench Pro 的優勢。^[9]^[4]
開放權重、自架、coding／agentic 場景：如果 Hugging Face、vLLM、SGLang 或 KTransformers 的部署路線對你很重要，Kimi K2.6 值得進自家測試集。^[6]
高流量、成本敏感的實驗：如果每次呼叫的成本比最高分更重要，DeepSeek V4 值得列入第一輪候選。^[2]^[3]^[9]

總結

只看 benchmark，第一梯隊仍是 GPT-5.5 與 Claude Opus 4.7，但兩者強項不同。GPT-5.5 在 ARC 與 Terminal-Bench 的訊號更強；Claude Opus 4.7 在 HLE 與 SWE-Bench Pro 更有優勢。^[1]^[3]^[4]^[9] Kimi K2.6 是強力 coding／agentic 候選，尤其在需要開放權重或自架路線時更值得注意，但它與另外三款模型的完整同場比較較少。^[6]^[8]^[13] DeepSeek V4 在這批資料中的 raw score 多半不是最高，卻靠低 API 價格成為很有存在感的 price-performance 選項。^[2]^[3]^[9]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

沒有一款模型在所有指標全面勝出：GPT 5.5 在 ARC AGI 2 達 85%，高於 Claude Opus 4.7 的 75.8%，並在 Terminal Bench 2.0 以 82.7% 明顯領先。[1][3]
Claude Opus 4.7 在高難度推理與軟體工程評測較強：VentureBeat 的 HLE 數據與 DataCamp 的 SWE Bench Pro 都顯示 Claude 領先 GPT 5.5 與 DeepSeek V4。[3][9]
Kimi K2.6 是值得測的 coding／agentic 與開放權重選項；DeepSeek V4 多數 raw score 不是最高，但 API 價格為每 100 萬輸入 token 1.74 美元、輸出 token 3.48 美元，價格優勢明顯。[2][6][8][13]

大家也會問

「GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4：基準測試怎麼看」的簡短答案是什麼？

沒有一款模型在所有指標全面勝出：GPT 5.5 在 ARC AGI 2 達 85%，高於 Claude Opus 4.7 的 75.8%，並在 Terminal Bench 2.0 以 82.7% 明顯領先。[1][3]

最值得優先驗證的重點是什麼？

接下來在實務上該怎麼做？

Kimi K2.6 是值得測的 coding／agentic 與開放權重選項；DeepSeek V4 多數 raw score 不是最高，但 API 價格為每 100 萬輸入 token 1.74 美元、輸出 token 3.48 美元，價格優勢明顯。[2][6][8][13]

下一步適合探索哪個相關主題？

繼續閱讀「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較：2026 年誰最值得信？」，從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較？

將這個答案與「DeepSeek V4 工程解析：1M 上下文、MoE 與 API 遷移重點」交叉比對。

開啟相關頁面

繼續深入研究

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較：2026 年誰最值得信？

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 基準測試與決策結論

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4 工程解析：1M 上下文、MoE 與 API 遷移重點

Northwest vs. Southeast Timber 彈性題解：為什麼是 larger; larger

Northwest 與 Southeast Timber：替代性越高，為什麼答案是 larger; larger？

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek 會擊敗 OpenAI、Claude、Gemini、Grok 嗎？關鍵不是榜單，而是成本與信任

研究對話

你2026年4月26日

研究問題

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI2026年4月26日27 個來源

附引用的答案

По доступным фрагментам доказательств полноценное сравнение всех четырёх моделей “один к одному” сделать нельзя: есть частичные данные для GPT-5.5, Claude Opus 4.7 и Kimi K2.6, но в предоставленных источниках нет сопоставимых бенчмарков для DeepSeek V4. В имеющихся данных GPT-5.5 выглядит сильнее Claude Opus 4.7 на ARC-AGI-2 и немного выше Kimi K2.6 в общем рейтинге Artificial Analysis, а Kimi K2.6 имеет сильные отдельные результаты на агентных и coding-бенчмарках.

Key findings

Модель	Что есть по бенчмаркам в доступных данных	Вывод
GPT-5.5	85% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium ^[5]^[6]	Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.7	75.8% на ARC-AGI-2 против 85% у GPT-5.5 ^[5]	В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.6	54 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[6]^[3]	Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4	В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам ^[7]	Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта ^[5].
В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе ^[6].
Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[3].
Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя ^[7].

Evidence notes

Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% ^[5].
Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 ^[6].
Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках ^[3].

Limitations / uncertainty

Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.
Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score ^[7].
Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Если опираться только на предоставленные данные, GPT-5.5 выглядит лидером в имеющихся прямых сравнениях: он выше Claude Opus 4.7 на ARC-AGI-2 и выше Kimi K2.6 в фрагменте Artificial Analysis ^[5]^[6]. Kimi K2.6 имеет сильные подтверждённые результаты на агентных и coding-бенчмарках, включая SWE-bench Verified 65.8 ^[3]. Для DeepSeek V4 в предоставленных данных недостаточно benchmark-информации, поэтому корректно сравнить его с остальными по бенчмаркам невозможно ^[7].

來源

[1] Claude Opus 4.7 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
Benchmark Claude Opus 4.7 GPT-5.5 --- ARC-AGI-2 Visual reasoning puzzles benchmark, ARC Prize Verified, testing abstract reasoning and visual problem-solving 75.8% Verified Source 85% Verified Source ARC-AGI-1 Abstract reasoning benchmark (ARC Prize Verifie...
[2] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[8] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[9] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[13] Comparison of over 100 AI models from OpenAI, Google, DeepSeek ...artificialanalysis.ai
GPT-5.5 (medium) 922k OpenAIOpenAI 57 -- -- Model Providers Kimi K2.6 256k KimiKimi 54 $1.71 134 1.04 38.01 Model Providers MiMo-V2.5-Pro 1M XiaomiXiaomi 54 $1.50 59 2.80 44.98 Model Providers GPT-5.3 Codex (xhigh) 400k OpenAIOpenAI 54 $4.81 68 87.92 95.31...
[25] README.md · unsloth/Kimi-K2.6-GGUF at b537b6bb8a5ccb31ab0336cd0478ba91d57794dbhuggingface.co
Benchmark Kimi K2.6 GPT-5.4 (xhigh) Claude Opus 4.6 (max effort) Gemini 3.1 Pro (thinking high) Kimi K2.5 --- --- --- Agentic HLE-Full (w/ tools) 54.0 52.1 53.0 51.4 50.2 BrowseComp 83.2 82.7 83.7 85.9 74.9 BrowseComp (Agent Swarm) 86.3 78.4 DeepSearchQA (f...

熱門探索內容

報告已發布2026年4月28日Last edited 2026年5月6日9 個來源

GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4：基準測試怎麼看

使用 Studio Global AI 搜尋並查證事實探索更多內容

18K0

先看短版結論

GPT-5.5：適合先拿來測 ARC、視覺／抽象推理，以及 terminal-style agent 任務。DocsBot 顯示 GPT-5.5 在 ARC-AGI-2 得到 85%，高於 Claude Opus 4.7 的 75.8%；VentureBeat 則列出 GPT-5.5 在 Terminal-Bench 2.0 得到 82.7%，高於 Claude 的 69.4% 與 DeepSeek 的 67.9%。^[1]^[3]
Claude Opus 4.7：在重推理與 code review 型任務上最值得先試。VentureBeat 顯示 Claude 在 Humanity’s Last Exam，簡稱 HLE，不使用工具與使用工具兩種設定都高於 GPT-5.5 與 DeepSeek；DataCamp 也列出 Claude 在 SWE-Bench Pro 得到 64.3%，高於 GPT-5.5 的 58.6% 與 DeepSeek V4 Pro 的 55.4%。^[3]^[9]
Kimi K2.6：不能簡單說它輸或贏，因為同場比較較少。Artificial Analysis 中 Kimi K2.6 得到 54，低於 GPT-5.5 medium 的 57，但高於 Claude Opus 4.7 non-reasoning high 的 52；AkitaOnRails 的 coding benchmark 則列出 Kimi K2.6 得到 87。^[13]^[8]
DeepSeek V4：更像價格效益選項，而不是這批資料中的最高分模型。Mashable 列出的 API 價格為每 100 萬輸入 token 1.74 美元、每 100 萬輸出 token 3.48 美元；相較之下，GPT-5.5 為 5／30 美元，Claude Opus 4.7 為 5／25 美元。^[2]

主要基準測試對照

表中的 — 代表提供的來源片段沒有可直接對照的分數。這點很重要：不同來源可能測的是不同模式、不同版本或不同任務設定。

評測／來源	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	怎麼解讀
ARC-AGI-2，DocsBot	85%	75.8%	—	—	GPT-5.5 領先 Claude 9.2 個百分點。^[1]
ARC-AGI-1，DocsBot	95%	93.5%	—	—	GPT-5.5 小幅高於 Claude。^[1]
Artificial Analysis leaderboard	57，GPT-5.5 medium	52，Claude Opus 4.7 non-reasoning high	54	—	在這個切面，GPT-5.5 高於 Kimi 與指定 Claude 模式；來源片段未列 DeepSeek V4。^[13]
Humanity’s Last Exam，無工具，VentureBeat	41.4%	46.9%	—	37.7%	Claude 在列出的基本設定中最高。^[3]
Humanity’s Last Exam，有工具，VentureBeat	52.2%；GPT-5.5 Pro 為 57.2%	54.7%	—	48.2%	Claude 高於一般 GPT-5.5，但 GPT-5.5 Pro 這一列高於 Claude。^[3]
Terminal-Bench 2.0，VentureBeat	82.7%	69.4%	—	67.9%	這是 GPT-5.5 在本批資料中最明顯的領先項目之一。^[3]
SWE-Bench Pro，DataCamp	58.6%	64.3%	—	55.4%，DeepSeek V4 Pro	Claude 高於 GPT-5.5 與 DeepSeek V4 Pro。^[9]
SWE-Bench Verified，Verdent	—	87.6%	80.2%	—	在這個 coding 切面，Claude 高於 Kimi。^[6]
Coding benchmark，AkitaOnRails	96，GPT-5.5 xHigh／Codex	97	87	78，V4 Flash；69，V4 Pro	Claude 與 GPT-5.5 幾乎並列；Kimi 高於兩個 DeepSeek V4 版本。^[8]

為什麼不能直接宣布總冠軍

GPT-5.5 強在哪裡

Claude Opus 4.7 強在哪裡

Kimi K2.6 該怎麼看

DeepSeek V4 顯示了什麼

不同任務，該先測哪一款？

ARC、視覺推理、抽象 puzzle：先測 GPT-5.5。DocsBot 的 ARC-AGI-2 與 ARC-AGI-1 對照中，GPT-5.5 都高於 Claude Opus 4.7。^[1]
高難度推理與 HLE-style 任務：若比較基本模型列，先測 Claude Opus 4.7；但要注意 VentureBeat 的 GPT-5.5 Pro 在 HLE 有工具設定高於 Claude。^[3]
Terminal、shell-driven agents、工具使用流程：先測 GPT-5.5。Terminal-Bench 2.0 是它在這批來源中最亮眼的直接結果之一。^[3]^[4]
SWE-Bench Pro、重 code review 的軟體工程：先測 Claude Opus 4.7。DataCamp 與 LLM Stats 都指向 Claude 在 SWE-Bench Pro 的優勢。^[9]^[4]
開放權重、自架、coding／agentic 場景：如果 Hugging Face、vLLM、SGLang 或 KTransformers 的部署路線對你很重要，Kimi K2.6 值得進自家測試集。^[6]
高流量、成本敏感的實驗：如果每次呼叫的成本比最高分更重要，DeepSeek V4 值得列入第一輪候選。^[2]^[3]^[9]

總結

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

沒有一款模型在所有指標全面勝出：GPT 5.5 在 ARC AGI 2 達 85%，高於 Claude Opus 4.7 的 75.8%，並在 Terminal Bench 2.0 以 82.7% 明顯領先。[1][3]
Claude Opus 4.7 在高難度推理與軟體工程評測較強：VentureBeat 的 HLE 數據與 DataCamp 的 SWE Bench Pro 都顯示 Claude 領先 GPT 5.5 與 DeepSeek V4。[3][9]
Kimi K2.6 是值得測的 coding／agentic 與開放權重選項；DeepSeek V4 多數 raw score 不是最高，但 API 價格為每 100 萬輸入 token 1.74 美元、輸出 token 3.48 美元，價格優勢明顯。[2][6][8][13]

大家也會問

「GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4：基準測試怎麼看」的簡短答案是什麼？

沒有一款模型在所有指標全面勝出：GPT 5.5 在 ARC AGI 2 達 85%，高於 Claude Opus 4.7 的 75.8%，並在 Terminal Bench 2.0 以 82.7% 明顯領先。[1][3]

最值得優先驗證的重點是什麼？

接下來在實務上該怎麼做？

下一步適合探索哪個相關主題？

繼續閱讀「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較：2026 年誰最值得信？」，從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較？

將這個答案與「DeepSeek V4 工程解析：1M 上下文、MoE 與 API 遷移重點」交叉比對。

開啟相關頁面

繼續深入研究

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較：2026 年誰最值得信？

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 基準測試與決策結論

DeepSeek V4 工程解析：1M 上下文、MoE 與 API 遷移重點

Northwest vs. Southeast Timber 彈性題解：為什麼是 larger; larger

Northwest 與 Southeast Timber：替代性越高，為什麼答案是 larger; larger？

DeepSeek 會擊敗 OpenAI、Claude、Gemini、Grok 嗎？關鍵不是榜單，而是成本與信任

研究對話

你2026年4月26日

研究問題

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI2026年4月26日27 個來源

附引用的答案

Key findings

Модель	Что есть по бенчмаркам в доступных данных	Вывод
GPT-5.5	85% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium ^[5]^[6]	Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.7	75.8% на ARC-AGI-2 против 85% у GPT-5.5 ^[5]	В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.6	54 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[6]^[3]	Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4	В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам ^[7]	Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта ^[5].
В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе ^[6].
Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[3].
Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя ^[7].

Evidence notes

Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% ^[5].
Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 ^[6].
Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках ^[3].

Limitations / uncertainty

Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.
Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score ^[7].
Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

來源

[1] Claude Opus 4.7 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
Benchmark Claude Opus 4.7 GPT-5.5 --- ARC-AGI-2 Visual reasoning puzzles benchmark, ARC Prize Verified, testing abstract reasoning and visual problem-solving 75.8% Verified Source 85% Verified Source ARC-AGI-1 Abstract reasoning benchmark (ARC Prize Verifie...
[2] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[8] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[9] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[13] Comparison of over 100 AI models from OpenAI, Google, DeepSeek ...artificialanalysis.ai
GPT-5.5 (medium) 922k OpenAIOpenAI 57 -- -- Model Providers Kimi K2.6 256k KimiKimi 54 $1.71 134 1.04 38.01 Model Providers MiMo-V2.5-Pro 1M XiaomiXiaomi 54 $1.50 59 2.80 44.98 Model Providers GPT-5.3 Codex (xhigh) 400k OpenAIOpenAI 54 $4.81 68 87.92 95.31...
[25] README.md · unsloth/Kimi-K2.6-GGUF at b537b6bb8a5ccb31ab0336cd0478ba91d57794dbhuggingface.co
Benchmark Kimi K2.6 GPT-5.4 (xhigh) Claude Opus 4.6 (max effort) Gemini 3.1 Pro (thinking high) Kimi K2.5 --- --- --- Agentic HLE-Full (w/ tools) 54.0 52.1 53.0 51.4 50.2 BrowseComp 83.2 82.7 83.7 85.9 74.9 BrowseComp (Agent Swarm) 86.3 78.4 DeepSearchQA (f...

熱門探索內容

報告已發布2026年4月28日Last edited 2026年5月6日9 個來源

GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4：基準測試怎麼看

使用 Studio Global AI 搜尋並查證事實探索更多內容

18K0

先看短版結論

GPT-5.5：適合先拿來測 ARC、視覺／抽象推理，以及 terminal-style agent 任務。DocsBot 顯示 GPT-5.5 在 ARC-AGI-2 得到 85%，高於 Claude Opus 4.7 的 75.8%；VentureBeat 則列出 GPT-5.5 在 Terminal-Bench 2.0 得到 82.7%，高於 Claude 的 69.4% 與 DeepSeek 的 67.9%。^[1]^[3]
Claude Opus 4.7：在重推理與 code review 型任務上最值得先試。VentureBeat 顯示 Claude 在 Humanity’s Last Exam，簡稱 HLE，不使用工具與使用工具兩種設定都高於 GPT-5.5 與 DeepSeek；DataCamp 也列出 Claude 在 SWE-Bench Pro 得到 64.3%，高於 GPT-5.5 的 58.6% 與 DeepSeek V4 Pro 的 55.4%。^[3]^[9]
Kimi K2.6：不能簡單說它輸或贏，因為同場比較較少。Artificial Analysis 中 Kimi K2.6 得到 54，低於 GPT-5.5 medium 的 57，但高於 Claude Opus 4.7 non-reasoning high 的 52；AkitaOnRails 的 coding benchmark 則列出 Kimi K2.6 得到 87。^[13]^[8]
DeepSeek V4：更像價格效益選項，而不是這批資料中的最高分模型。Mashable 列出的 API 價格為每 100 萬輸入 token 1.74 美元、每 100 萬輸出 token 3.48 美元；相較之下，GPT-5.5 為 5／30 美元，Claude Opus 4.7 為 5／25 美元。^[2]

主要基準測試對照

表中的 — 代表提供的來源片段沒有可直接對照的分數。這點很重要：不同來源可能測的是不同模式、不同版本或不同任務設定。

評測／來源	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	怎麼解讀
ARC-AGI-2，DocsBot	85%	75.8%	—	—	GPT-5.5 領先 Claude 9.2 個百分點。^[1]
ARC-AGI-1，DocsBot	95%	93.5%	—	—	GPT-5.5 小幅高於 Claude。^[1]
Artificial Analysis leaderboard	57，GPT-5.5 medium	52，Claude Opus 4.7 non-reasoning high	54	—	在這個切面，GPT-5.5 高於 Kimi 與指定 Claude 模式；來源片段未列 DeepSeek V4。^[13]
Humanity’s Last Exam，無工具，VentureBeat	41.4%	46.9%	—	37.7%	Claude 在列出的基本設定中最高。^[3]
Humanity’s Last Exam，有工具，VentureBeat	52.2%；GPT-5.5 Pro 為 57.2%	54.7%	—	48.2%	Claude 高於一般 GPT-5.5，但 GPT-5.5 Pro 這一列高於 Claude。^[3]
Terminal-Bench 2.0，VentureBeat	82.7%	69.4%	—	67.9%	這是 GPT-5.5 在本批資料中最明顯的領先項目之一。^[3]
SWE-Bench Pro，DataCamp	58.6%	64.3%	—	55.4%，DeepSeek V4 Pro	Claude 高於 GPT-5.5 與 DeepSeek V4 Pro。^[9]
SWE-Bench Verified，Verdent	—	87.6%	80.2%	—	在這個 coding 切面，Claude 高於 Kimi。^[6]
Coding benchmark，AkitaOnRails	96，GPT-5.5 xHigh／Codex	97	87	78，V4 Flash；69，V4 Pro	Claude 與 GPT-5.5 幾乎並列；Kimi 高於兩個 DeepSeek V4 版本。^[8]

為什麼不能直接宣布總冠軍

GPT-5.5 強在哪裡

Claude Opus 4.7 強在哪裡

Kimi K2.6 該怎麼看

DeepSeek V4 顯示了什麼

不同任務，該先測哪一款？

ARC、視覺推理、抽象 puzzle：先測 GPT-5.5。DocsBot 的 ARC-AGI-2 與 ARC-AGI-1 對照中，GPT-5.5 都高於 Claude Opus 4.7。^[1]
高難度推理與 HLE-style 任務：若比較基本模型列，先測 Claude Opus 4.7；但要注意 VentureBeat 的 GPT-5.5 Pro 在 HLE 有工具設定高於 Claude。^[3]
Terminal、shell-driven agents、工具使用流程：先測 GPT-5.5。Terminal-Bench 2.0 是它在這批來源中最亮眼的直接結果之一。^[3]^[4]
SWE-Bench Pro、重 code review 的軟體工程：先測 Claude Opus 4.7。DataCamp 與 LLM Stats 都指向 Claude 在 SWE-Bench Pro 的優勢。^[9]^[4]
開放權重、自架、coding／agentic 場景：如果 Hugging Face、vLLM、SGLang 或 KTransformers 的部署路線對你很重要，Kimi K2.6 值得進自家測試集。^[6]
高流量、成本敏感的實驗：如果每次呼叫的成本比最高分更重要，DeepSeek V4 值得列入第一輪候選。^[2]^[3]^[9]

總結

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

沒有一款模型在所有指標全面勝出：GPT 5.5 在 ARC AGI 2 達 85%，高於 Claude Opus 4.7 的 75.8%，並在 Terminal Bench 2.0 以 82.7% 明顯領先。[1][3]
Claude Opus 4.7 在高難度推理與軟體工程評測較強：VentureBeat 的 HLE 數據與 DataCamp 的 SWE Bench Pro 都顯示 Claude 領先 GPT 5.5 與 DeepSeek V4。[3][9]
Kimi K2.6 是值得測的 coding／agentic 與開放權重選項；DeepSeek V4 多數 raw score 不是最高，但 API 價格為每 100 萬輸入 token 1.74 美元、輸出 token 3.48 美元，價格優勢明顯。[2][6][8][13]

大家也會問

「GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4：基準測試怎麼看」的簡短答案是什麼？

沒有一款模型在所有指標全面勝出：GPT 5.5 在 ARC AGI 2 達 85%，高於 Claude Opus 4.7 的 75.8%，並在 Terminal Bench 2.0 以 82.7% 明顯領先。[1][3]

最值得優先驗證的重點是什麼？

接下來在實務上該怎麼做？

下一步適合探索哪個相關主題？

繼續閱讀「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較：2026 年誰最值得信？」，從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較？

將這個答案與「DeepSeek V4 工程解析：1M 上下文、MoE 與 API 遷移重點」交叉比對。

開啟相關頁面

繼續深入研究

研究對話

你2026年4月26日

研究問題

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI2026年4月26日27 個來源

附引用的答案

Key findings

Модель	Что есть по бенчмаркам в доступных данных	Вывод
GPT-5.5	85% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium ^[5]^[6]	Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.7	75.8% на ARC-AGI-2 против 85% у GPT-5.5 ^[5]	В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.6	54 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[6]^[3]	Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4	В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам ^[7]	Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта ^[5].
В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе ^[6].
Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[3].
Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя ^[7].

Evidence notes

Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% ^[5].
Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 ^[6].
Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках ^[3].

Limitations / uncertainty

Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.
Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score ^[7].
Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

來源

[1] Claude Opus 4.7 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
Benchmark Claude Opus 4.7 GPT-5.5 --- ARC-AGI-2 Visual reasoning puzzles benchmark, ARC Prize Verified, testing abstract reasoning and visual problem-solving 75.8% Verified Source 85% Verified Source ARC-AGI-1 Abstract reasoning benchmark (ARC Prize Verifie...
[2] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[8] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[9] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[13] Comparison of over 100 AI models from OpenAI, Google, DeepSeek ...artificialanalysis.ai
GPT-5.5 (medium) 922k OpenAIOpenAI 57 -- -- Model Providers Kimi K2.6 256k KimiKimi 54 $1.71 134 1.04 38.01 Model Providers MiMo-V2.5-Pro 1M XiaomiXiaomi 54 $1.50 59 2.80 44.98 Model Providers GPT-5.3 Codex (xhigh) 400k OpenAIOpenAI 54 $4.81 68 87.92 95.31...
[25] README.md · unsloth/Kimi-K2.6-GGUF at b537b6bb8a5ccb31ab0336cd0478ba91d57794dbhuggingface.co
Benchmark Kimi K2.6 GPT-5.4 (xhigh) Claude Opus 4.6 (max effort) Gemini 3.1 Pro (thinking high) Kimi K2.5 --- --- --- Agentic HLE-Full (w/ tools) 54.0 52.1 53.0 51.4 50.2 BrowseComp 83.2 82.7 83.7 85.9 74.9 BrowseComp (Agent Swarm) 86.3 78.4 DeepSearchQA (f...