Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro. Kimi K2.6 лучше читать как сильного coding/agentic кандидата: 54 в Artificial Analysis и 87 в coding бенчмарке AkitaOnRails, но прямых сравнений со всеми трем...

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro; вывод ограничен тем, что источники сравнивают разные режим.... Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). . [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.
Свести GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 к одному «победителю» нельзя: доступные источники показывают разные бенчмарки, разные режимы моделей и неполные пересечения. Но практическая картина понятна: GPT-5.5 выглядит сильнее в ARC и terminal-style агентных задачах, Claude Opus 4.7 — в HLE и SWE-Bench Pro, Kimi K2.6 — конкурентный coding/open-weight вариант с меньшим числом прямых сравнений, а DeepSeek V4 чаще проигрывает по максимальному score, но заметно выигрывает по цене API.[1][
2][
3][
4][
6][
8]
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro.
Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro. Kimi K2.6 лучше читать как сильного coding/agentic кандидата: 54 в Artificial Analysis и 87 в coding бенчмарке AkitaOnRails, но прямых сравнений со всеми тремя конкурентами меньше.
DeepSeek V4 чаще ниже по raw score в доступных строках, зато дешевле: $1.74 за 1 млн input tokens и $3.48 за 1 млн output tokens против $5/$30 у GPT 5.5 и $5/$25 у Claude Opus 4.7.
Продолжайте с «Гонконгская полиция к экзамену: ICAC, полномочия и ответственность», чтобы увидеть другой ракурс и дополнительные цитаты.
Open related pageСверьте этот ответ с «Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года».
Open related pageBenchmark Claude Opus 4.7 GPT-5.5 --- ARC-AGI-2 Visual reasoning puzzles benchmark, ARC Prize Verified, testing abstract reasoning and visual problem-solving 75.8% Verified Source 85% Verified Source ARC-AGI-1 Abstract reasoning benchmark (ARC Prize Verifie...
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
Знак — означает, что в предоставленном фрагменте источника нет сопоставимого результата для этой модели.
| Бенчмарк / источник | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4 | Что показывает строка |
|---|---|---|---|---|---|
| ARC-AGI-2, DocsBot | 85% | 75,8% | — | — | GPT-5.5 впереди Claude на 9,2 п.п.[ |
| ARC-AGI-1, DocsBot | 95% | 93,5% | — | — | GPT-5.5 немного выше Claude.[ |
| Artificial Analysis leaderboard | 57, GPT-5.5 medium | 52, Claude Opus 4.7 non-reasoning high | 54 | — | В этом срезе GPT-5.5 выше Kimi и указанного режима Claude; DeepSeek V4 в доступном фрагменте не показан.[ |
| Humanity’s Last Exam без инструментов, VentureBeat | 41,4% | 46,9% | — | 37,7% | Claude лидирует среди показанных базовых строк.[ |
| Humanity’s Last Exam с инструментами, VentureBeat | 52,2%; GPT-5.5 Pro — 57,2% | 54,7% | — | 48,2% | Claude выше базового GPT-5.5, но отдельная строка GPT-5.5 Pro выше Claude.[ |
| Terminal-Bench 2.0, VentureBeat | 82,7% | 69,4% | — | 67,9% | Самый явный перевес GPT-5.5 в этой подборке.[ |
| SWE-Bench Pro, DataCamp | 58,6% | 64,3% | — | 55,4%, DeepSeek V4 Pro | Claude выше GPT-5.5 и DeepSeek V4 Pro.[ |
| SWE-Bench Verified, Verdent | — | 87,6% | 80,2% | — | Claude выше Kimi в этом coding-срезе.[ |
| Coding benchmark, AkitaOnRails | 96, GPT-5.5 xHigh/Codex | 97 | 87 | 78, V4 Flash; 69, V4 Pro | Claude и GPT-5.5 почти равны; Kimi выше обеих строк DeepSeek V4.[ |
Главная проблема — не отсутствие сильных результатов, а несопоставимость части строк. Artificial Analysis сравнивает GPT-5.5 medium, Kimi K2.6 и Claude Opus 4.7 non-reasoning high; AkitaOnRails использует GPT-5.5 xHigh/Codex и отдельные строки DeepSeek V4 Flash и DeepSeek V4 Pro; VentureBeat отдельно показывает GPT-5.5 и GPT-5.5 Pro.[13][
8][
3]
Даже прямое сравнение GPT-5.5 и Claude Opus 4.7 даёт неоднозначный итог. LLM Stats пишет, что на 10 бенчмарках, которые репортят оба провайдера, Opus 4.7 лидирует на 6, а GPT-5.5 — на 4; преимущества Claude сгруппированы вокруг reasoning-heavy и review-grade тестов, а преимущества GPT-5.5 — вокруг long-running tool-use и shell-driven задач.[4]
Самые убедительные сигналы в пользу GPT-5.5 — ARC и Terminal-Bench. В ARC-AGI-2 GPT-5.5 получает 85% против 75,8% у Claude Opus 4.7, а в ARC-AGI-1 — 95% против 93,5%.[1] В Terminal-Bench 2.0 GPT-5.5 набирает 82,7%, заметно выше Claude Opus 4.7 с 69,4% и DeepSeek с 67,9%.[
3]
Artificial Analysis тоже ставит GPT-5.5 medium выше двух доступных конкурентов из этой группы: 57 против 54 у Kimi K2.6 и 52 у Claude Opus 4.7 non-reasoning high.[13] Но это не универсальный рейтинг всех режимов: LLM Stats отдельно показывает, что Claude Opus 4.7 выигрывает у GPT-5.5 часть reasoning и software-engineering тестов.[
4]
Claude Opus 4.7 лучше всего выглядит там, где важны тяжёлое рассуждение и проверка сложного кода. На Humanity’s Last Exam без инструментов VentureBeat указывает 46,9% для Claude, 41,4% для GPT-5.5 и 37,7% для DeepSeek; с инструментами — 54,7% для Claude, 52,2% для GPT-5.5 и 48,2% для DeepSeek.[3]
На SWE-Bench Pro DataCamp приводит 64,3% для Claude Opus 4.7, 58,6% для GPT-5.5 и 55,4% для DeepSeek V4 Pro.[9] Это совпадает с общей картиной LLM Stats: Claude ведёт у GPT-5.5 на GPQA, HLE без инструментов, HLE с инструментами, SWE-Bench Pro, MCP Atlas и FinanceAgent v1.1.[
4]
Kimi K2.6 сложно поставить в один полный рейтинг с GPT-5.5, Claude Opus 4.7 и DeepSeek V4, потому что он не всегда присутствует в тех же таблицах. В доступном фрагменте Artificial Analysis Kimi K2.6 получает 54, уступая GPT-5.5 medium с 57, но опережая Claude Opus 4.7 non-reasoning high с 52.[13]
В coding-бенчмарке AkitaOnRails Kimi K2.6 получает 87: ниже Claude Opus 4.7 с 97 и GPT-5.5 xHigh/Codex с 96, но выше DeepSeek V4 Flash с 78 и DeepSeek V4 Pro с 69.[8] В отдельном сравнении Verdent по SWE-Bench Verified указаны 80,2% для Kimi K2.6 и 87,6% для Claude Opus 4.7.[
6]
Практическое отличие Kimi — open-weight маршрут. Verdent пишет, что K2.6 weights доступны на Hugging Face и запускаются через vLLM, SGLang или KTransformers; тот же источник указывает минимально жизнеспособную конфигурацию 4× H100 для INT4-варианта при уменьшенном контексте.[6] README на Hugging Face также приводит для Kimi K2.6 агентные метрики вроде HLE-Full с инструментами 54,0, BrowseComp 83,2, DeepSearchQA f1-score 92,5, Toolathlon 50,0 и MCPMark 55,9, но эта таблица сравнивает Kimi в основном с GPT-5.4, Claude Opus 4.6 и Gemini 3.1 Pro, а не с полным набором моделей из этого обзора.[
25]
В приведённых источниках DeepSeek V4 чаще выглядит как value-модель, а не как лидер по максимальному benchmark score. В VentureBeat DeepSeek ниже GPT-5.5 и Claude Opus 4.7 на HLE без инструментов, HLE с инструментами и Terminal-Bench 2.0.[3] В DataCamp DeepSeek V4 Pro получает 55,4% на SWE-Bench Pro против 58,6% у GPT-5.5 и 64,3% у Claude Opus 4.7.[
9] В AkitaOnRails DeepSeek V4 Flash получает 78, а DeepSeek V4 Pro — 69, что ниже Kimi K2.6, GPT-5.5 xHigh/Codex и Claude Opus 4.7 в той же таблице.[
8]
Зато цена меняет продуктовую логику. Mashable указывает для DeepSeek V4 $1.74 за 1 млн input tokens и $3.48 за 1 млн output tokens, тогда как GPT-5.5 указан как $5/$30, а Claude Opus 4.7 — как $5/$25.[2] Это не делает DeepSeek победителем бенчмарков, но может сделать его разумным первым кандидатом для массовых черновиков, low-risk задач и дешёвых внутренних evals.
По benchmark-only картине верхняя пара — GPT-5.5 и Claude Opus 4.7, но они сильны в разных местах. GPT-5.5 лучше смотрится в ARC и Terminal-Bench, Claude Opus 4.7 — в HLE и SWE-Bench Pro.[1][
3][
4][
9] Kimi K2.6 остаётся сильным coding/agentic кандидатом, особенно если нужен путь к запуску с весами, но прямых общих сравнений меньше.[
6][
8][
13] DeepSeek V4 в этих данных чаще ниже по raw score, зато его API-цена делает его заметным вариантом для price-performance пилотов.[
2][
3][
9]
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
GPT-5.5 (medium) 922k OpenAIOpenAI 57 -- -- Model Providers Kimi K2.6 256k KimiKimi 54 $1.71 134 1.04 38.01 Model Providers MiMo-V2.5-Pro 1M XiaomiXiaomi 54 $1.50 59 2.80 44.98 Model Providers GPT-5.3 Codex (xhigh) 400k OpenAIOpenAI 54 $4.81 68 87.92 95.31...
Benchmark Kimi K2.6 GPT-5.4 (xhigh) Claude Opus 4.6 (max effort) Gemini 3.1 Pro (thinking high) Kimi K2.5 --- --- --- Agentic HLE-Full (w/ tools) 54.0 52.1 53.0 51.4 50.2 BrowseComp 83.2 82.7 83.7 85.9 74.9 BrowseComp (Agent Swarm) 86.3 78.4 DeepSearchQA (f...