ОтчетыОпубликовано28 апр. 2026Last edited 6 мая 20269 источники

GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4: сравнение бенчмарков

Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro. Kimi K2.6 лучше читать как сильного coding/agentic кандидата: 54 в Artificial Analysis и 87 в coding бенчмарке AkitaOnRails, но прямых сравнений со всеми трем...

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

17K0

Сравнение четырёх AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 на фоне графиков бенчмарков — GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахСравнение бенчмарков показывает не одного абсолютного лидера, а разные сильные стороны моделей.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro; вывод ограничен тем, что источники сравнивают разные режим.... Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.
openai.com

Свести GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 к одному «победителю» нельзя: доступные источники показывают разные бенчмарки, разные режимы моделей и неполные пересечения. Но практическая картина понятна: GPT-5.5 выглядит сильнее в ARC и terminal-style агентных задачах, Claude Opus 4.7 — в HLE и SWE-Bench Pro, Kimi K2.6 — конкурентный coding/open-weight вариант с меньшим числом прямых сравнений, а DeepSeek V4 чаще проигрывает по максимальному score, но заметно выигрывает по цене API.^[1]^[2]^[3]^[4]^[6]^[8]^[9]^[13]

Короткий вердикт по моделям

GPT-5.5 — первый кандидат для ARC-задач и terminal-style агентных сценариев: DocsBot указывает 85% на ARC-AGI-2 против 75,8% у Claude Opus 4.7, а VentureBeat приводит 82,7% на Terminal-Bench 2.0 против 69,4% у Claude и 67,9% у DeepSeek.^[1]^[3]
Claude Opus 4.7 — сильнейший в доступных строках по HLE и SWE-Bench Pro: VentureBeat показывает Claude выше GPT-5.5 и DeepSeek на Humanity’s Last Exam без инструментов и с инструментами, а DataCamp указывает 64,3% на SWE-Bench Pro против 58,6% у GPT-5.5 и 55,4% у DeepSeek V4 Pro.^[3]^[9]
Kimi K2.6 — сильный coding/agentic кандидат, но не везде представлен в тех же таблицах: в Artificial Analysis он получает 54 против 57 у GPT-5.5 medium и 52 у Claude Opus 4.7 non-reasoning high, а в coding-бенчмарке AkitaOnRails — 87.^[13]^[8]
DeepSeek V4 — скорее price-performance вариант, чем benchmark-лидер в этих источниках: Mashable указывает $1.74 за 1 млн input tokens и $3.48 за 1 млн output tokens против $5/$30 у GPT-5.5 и $5/$25 у Claude Opus 4.7.^[2]

Сравнительная таблица бенчмарков

Знак — означает, что в предоставленном фрагменте источника нет сопоставимого результата для этой модели.

Бенчмарк / источник	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	Что показывает строка
ARC-AGI-2, DocsBot	85%	75,8%	—	—	GPT-5.5 впереди Claude на 9,2 п.п.^[1]
ARC-AGI-1, DocsBot	95%	93,5%	—	—	GPT-5.5 немного выше Claude.^[1]
Artificial Analysis leaderboard	57, GPT-5.5 medium	52, Claude Opus 4.7 non-reasoning high	54	—	В этом срезе GPT-5.5 выше Kimi и указанного режима Claude; DeepSeek V4 в доступном фрагменте не показан.^[13]
Humanity’s Last Exam без инструментов, VentureBeat	41,4%	46,9%	—	37,7%	Claude лидирует среди показанных базовых строк.^[3]
Humanity’s Last Exam с инструментами, VentureBeat	52,2%; GPT-5.5 Pro — 57,2%	54,7%	—	48,2%	Claude выше базового GPT-5.5, но отдельная строка GPT-5.5 Pro выше Claude.^[3]
Terminal-Bench 2.0, VentureBeat	82,7%	69,4%	—	67,9%	Самый явный перевес GPT-5.5 в этой подборке.^[3]
SWE-Bench Pro, DataCamp	58,6%	64,3%	—	55,4%, DeepSeek V4 Pro	Claude выше GPT-5.5 и DeepSeek V4 Pro.^[9]
SWE-Bench Verified, Verdent	—	87,6%	80,2%	—	Claude выше Kimi в этом coding-срезе.^[6]
Coding benchmark, AkitaOnRails	96, GPT-5.5 xHigh/Codex	97	87	78, V4 Flash; 69, V4 Pro	Claude и GPT-5.5 почти равны; Kimi выше обеих строк DeepSeek V4.^[8]

Почему нельзя объявить одного чемпиона

Главная проблема — не отсутствие сильных результатов, а несопоставимость части строк. Artificial Analysis сравнивает GPT-5.5 medium, Kimi K2.6 и Claude Opus 4.7 non-reasoning high; AkitaOnRails использует GPT-5.5 xHigh/Codex и отдельные строки DeepSeek V4 Flash и DeepSeek V4 Pro; VentureBeat отдельно показывает GPT-5.5 и GPT-5.5 Pro.^[13]^[8]^[3]

Даже прямое сравнение GPT-5.5 и Claude Opus 4.7 даёт неоднозначный итог. LLM Stats пишет, что на 10 бенчмарках, которые репортят оба провайдера, Opus 4.7 лидирует на 6, а GPT-5.5 — на 4; преимущества Claude сгруппированы вокруг reasoning-heavy и review-grade тестов, а преимущества GPT-5.5 — вокруг long-running tool-use и shell-driven задач.^[4]

Где сильнее GPT-5.5

Самые убедительные сигналы в пользу GPT-5.5 — ARC и Terminal-Bench. В ARC-AGI-2 GPT-5.5 получает 85% против 75,8% у Claude Opus 4.7, а в ARC-AGI-1 — 95% против 93,5%.^[1] В Terminal-Bench 2.0 GPT-5.5 набирает 82,7%, заметно выше Claude Opus 4.7 с 69,4% и DeepSeek с 67,9%.^[3]

Artificial Analysis тоже ставит GPT-5.5 medium выше двух доступных конкурентов из этой группы: 57 против 54 у Kimi K2.6 и 52 у Claude Opus 4.7 non-reasoning high.^[13] Но это не универсальный рейтинг всех режимов: LLM Stats отдельно показывает, что Claude Opus 4.7 выигрывает у GPT-5.5 часть reasoning и software-engineering тестов.^[4]

Где сильнее Claude Opus 4.7

Claude Opus 4.7 лучше всего выглядит там, где важны тяжёлое рассуждение и проверка сложного кода. На Humanity’s Last Exam без инструментов VentureBeat указывает 46,9% для Claude, 41,4% для GPT-5.5 и 37,7% для DeepSeek; с инструментами — 54,7% для Claude, 52,2% для GPT-5.5 и 48,2% для DeepSeek.^[3]

На SWE-Bench Pro DataCamp приводит 64,3% для Claude Opus 4.7, 58,6% для GPT-5.5 и 55,4% для DeepSeek V4 Pro.^[9] Это совпадает с общей картиной LLM Stats: Claude ведёт у GPT-5.5 на GPQA, HLE без инструментов, HLE с инструментами, SWE-Bench Pro, MCP Atlas и FinanceAgent v1.1.^[4]

Как оценивать Kimi K2.6

Kimi K2.6 сложно поставить в один полный рейтинг с GPT-5.5, Claude Opus 4.7 и DeepSeek V4, потому что он не всегда присутствует в тех же таблицах. В доступном фрагменте Artificial Analysis Kimi K2.6 получает 54, уступая GPT-5.5 medium с 57, но опережая Claude Opus 4.7 non-reasoning high с 52.^[13]

В coding-бенчмарке AkitaOnRails Kimi K2.6 получает 87: ниже Claude Opus 4.7 с 97 и GPT-5.5 xHigh/Codex с 96, но выше DeepSeek V4 Flash с 78 и DeepSeek V4 Pro с 69.^[8] В отдельном сравнении Verdent по SWE-Bench Verified указаны 80,2% для Kimi K2.6 и 87,6% для Claude Opus 4.7.^[6]

Практическое отличие Kimi — open-weight маршрут. Verdent пишет, что K2.6 weights доступны на Hugging Face и запускаются через vLLM, SGLang или KTransformers; тот же источник указывает минимально жизнеспособную конфигурацию 4× H100 для INT4-варианта при уменьшенном контексте.^[6] README на Hugging Face также приводит для Kimi K2.6 агентные метрики вроде HLE-Full с инструментами 54,0, BrowseComp 83,2, DeepSearchQA f1-score 92,5, Toolathlon 50,0 и MCPMark 55,9, но эта таблица сравнивает Kimi в основном с GPT-5.4, Claude Opus 4.6 и Gemini 3.1 Pro, а не с полным набором моделей из этого обзора.^[25]

Что показывает DeepSeek V4

В приведённых источниках DeepSeek V4 чаще выглядит как value-модель, а не как лидер по максимальному benchmark score. В VentureBeat DeepSeek ниже GPT-5.5 и Claude Opus 4.7 на HLE без инструментов, HLE с инструментами и Terminal-Bench 2.0.^[3] В DataCamp DeepSeek V4 Pro получает 55,4% на SWE-Bench Pro против 58,6% у GPT-5.5 и 64,3% у Claude Opus 4.7.^[9] В AkitaOnRails DeepSeek V4 Flash получает 78, а DeepSeek V4 Pro — 69, что ниже Kimi K2.6, GPT-5.5 xHigh/Codex и Claude Opus 4.7 в той же таблице.^[8]

Зато цена меняет продуктовую логику. Mashable указывает для DeepSeek V4 $1.74 за 1 млн input tokens и $3.48 за 1 млн output tokens, тогда как GPT-5.5 указан как $5/$30, а Claude Opus 4.7 — как $5/$25.^[2] Это не делает DeepSeek победителем бенчмарков, но может сделать его разумным первым кандидатом для массовых черновиков, low-risk задач и дешёвых внутренних evals.

Какую модель тестировать первой

ARC, visual reasoning и абстрактные пазлы: начните с GPT-5.5, потому что в доступном DocsBot-сравнении он выше Claude Opus 4.7 на ARC-AGI-2 и ARC-AGI-1.^[1]
Hard reasoning и HLE-style задачи: начните с Claude Opus 4.7, если сравниваете базовые строки; при этом отдельная строка GPT-5.5 Pro в VentureBeat выше Claude на HLE с инструментами.^[3]
Terminal, shell-driven agents и tool-use: начните с GPT-5.5, потому что Terminal-Bench 2.0 — его самый сильный прямой результат в этих источниках.^[3]^[4]
SWE-Bench Pro и review-heavy software engineering: начните с Claude Opus 4.7, поскольку DataCamp и LLM Stats оба указывают преимущество Claude в SWE-Bench Pro.^[9]^[4]
Open-weight или self-hosted coding/agentic сценарии: протестируйте Kimi K2.6 на собственных задачах, если возможность запуска через Hugging Face, vLLM, SGLang или KTransformers важнее доступа только через API.^[6]
Бюджетные high-volume эксперименты: рассмотрите DeepSeek V4, если цена за попытку важнее максимального benchmark score.^[2]^[3]^[9]

Итог

По benchmark-only картине верхняя пара — GPT-5.5 и Claude Opus 4.7, но они сильны в разных местах. GPT-5.5 лучше смотрится в ARC и Terminal-Bench, Claude Opus 4.7 — в HLE и SWE-Bench Pro.^[1]^[3]^[4]^[9] Kimi K2.6 остаётся сильным coding/agentic кандидатом, особенно если нужен путь к запуску с весами, но прямых общих сравнений меньше.^[6]^[8]^[13] DeepSeek V4 в этих данных чаще ниже по raw score, зато его API-цена делает его заметным вариантом для price-performance пилотов.^[2]^[3]^[9]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro.
Kimi K2.6 лучше читать как сильного coding/agentic кандидата: 54 в Artificial Analysis и 87 в coding бенчмарке AkitaOnRails, но прямых сравнений со всеми тремя конкурентами меньше.
DeepSeek V4 чаще ниже по raw score в доступных строках, зато дешевле: $1.74 за 1 млн input tokens и $3.48 за 1 млн output tokens против $5/$30 у GPT 5.5 и $5/$25 у Claude Opus 4.7.

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4: сравнение бенчмарков»?

Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro.

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

DeepSeek V4 чаще ниже по raw score в доступных строках, зато дешевле: $1.74 за 1 млн input tokens и $3.48 за 1 млн output tokens против $5/$30 у GPT 5.5 и $5/$25 у Claude Opus 4.7.

Какую связанную тему мне следует изучить дальше?

Продолжайте с «GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4: где какая модель лидирует», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: benchmarks 2026 y veredicto».

Открыть связанную страницу

Продолжайте свое исследование

Сравнение AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам

GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4: где какая модель лидирует

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: сравнение бенчмарков

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: benchmarks 2026 y veredicto

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: comparativa de benchmarks 2026

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4 工程解析：1M 上下文、MoE 与 API 迁移要点

Northwest vs. Southeast Timber 彈性題解：為什麼是 larger; larger

Northwest 與 Southeast Timber：替代性越高，為什麼答案是 larger; larger？

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI26 апр. 202627 источники

Цитируемый ответ

По доступным фрагментам доказательств полноценное сравнение всех четырёх моделей “один к одному” сделать нельзя: есть частичные данные для GPT-5.5, Claude Opus 4.7 и Kimi K2.6, но в предоставленных источниках нет сопоставимых бенчмарков для DeepSeek V4. В имеющихся данных GPT-5.5 выглядит сильнее Claude Opus 4.7 на ARC-AGI-2 и немного выше Kimi K2.6 в общем рейтинге Artificial Analysis, а Kimi K2.6 имеет сильные отдельные результаты на агентных и coding-бенчмарках.

Key findings

Модель	Что есть по бенчмаркам в доступных данных	Вывод
GPT-5.5	85% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium ^[5]^[6]	Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.7	75.8% на ARC-AGI-2 против 85% у GPT-5.5 ^[5]	В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.6	54 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[6]^[3]	Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4	В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам ^[7]	Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта ^[5].
В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе ^[6].
Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[3].
Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя ^[7].

Evidence notes

Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% ^[5].
Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 ^[6].
Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках ^[3].

Limitations / uncertainty

Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.
Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score ^[7].
Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Если опираться только на предоставленные данные, GPT-5.5 выглядит лидером в имеющихся прямых сравнениях: он выше Claude Opus 4.7 на ARC-AGI-2 и выше Kimi K2.6 в фрагменте Artificial Analysis ^[5]^[6]. Kimi K2.6 имеет сильные подтверждённые результаты на агентных и coding-бенчмарках, включая SWE-bench Verified 65.8 ^[3]. Для DeepSeek V4 в предоставленных данных недостаточно benchmark-информации, поэтому корректно сравнить его с остальными по бенчмаркам невозможно ^[7].

Источники

[1] Claude Opus 4.7 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
Benchmark Claude Opus 4.7 GPT-5.5 --- ARC-AGI-2 Visual reasoning puzzles benchmark, ARC Prize Verified, testing abstract reasoning and visual problem-solving 75.8% Verified Source 85% Verified Source ARC-AGI-1 Abstract reasoning benchmark (ARC Prize Verifie...
[2] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[8] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[9] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[13] Comparison of over 100 AI models from OpenAI, Google, DeepSeek ...artificialanalysis.ai
GPT-5.5 (medium) 922k OpenAIOpenAI 57 -- -- Model Providers Kimi K2.6 256k KimiKimi 54 $1.71 134 1.04 38.01 Model Providers MiMo-V2.5-Pro 1M XiaomiXiaomi 54 $1.50 59 2.80 44.98 Model Providers GPT-5.3 Codex (xhigh) 400k OpenAIOpenAI 54 $4.81 68 87.92 95.31...
[25] README.md · unsloth/Kimi-K2.6-GGUF at b537b6bb8a5ccb31ab0336cd0478ba91d57794dbhuggingface.co
Benchmark Kimi K2.6 GPT-5.4 (xhigh) Claude Opus 4.6 (max effort) Gemini 3.1 Pro (thinking high) Kimi K2.5 --- --- --- Agentic HLE-Full (w/ tools) 54.0 52.1 53.0 51.4 50.2 BrowseComp 83.2 82.7 83.7 85.9 74.9 BrowseComp (Agent Swarm) 86.3 78.4 DeepSearchQA (f...

Популярное в «Открыть»

ОтчетыОпубликовано28 апр. 2026Last edited 6 мая 20269 источники

GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4: сравнение бенчмарков

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

17K0

Короткий вердикт по моделям

GPT-5.5 — первый кандидат для ARC-задач и terminal-style агентных сценариев: DocsBot указывает 85% на ARC-AGI-2 против 75,8% у Claude Opus 4.7, а VentureBeat приводит 82,7% на Terminal-Bench 2.0 против 69,4% у Claude и 67,9% у DeepSeek.^[1]^[3]
Claude Opus 4.7 — сильнейший в доступных строках по HLE и SWE-Bench Pro: VentureBeat показывает Claude выше GPT-5.5 и DeepSeek на Humanity’s Last Exam без инструментов и с инструментами, а DataCamp указывает 64,3% на SWE-Bench Pro против 58,6% у GPT-5.5 и 55,4% у DeepSeek V4 Pro.^[3]^[9]
Kimi K2.6 — сильный coding/agentic кандидат, но не везде представлен в тех же таблицах: в Artificial Analysis он получает 54 против 57 у GPT-5.5 medium и 52 у Claude Opus 4.7 non-reasoning high, а в coding-бенчмарке AkitaOnRails — 87.^[13]^[8]
DeepSeek V4 — скорее price-performance вариант, чем benchmark-лидер в этих источниках: Mashable указывает $1.74 за 1 млн input tokens и $3.48 за 1 млн output tokens против $5/$30 у GPT-5.5 и $5/$25 у Claude Opus 4.7.^[2]

Сравнительная таблица бенчмарков

Знак — означает, что в предоставленном фрагменте источника нет сопоставимого результата для этой модели.

Бенчмарк / источник	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	Что показывает строка
ARC-AGI-2, DocsBot	85%	75,8%	—	—	GPT-5.5 впереди Claude на 9,2 п.п.^[1]
ARC-AGI-1, DocsBot	95%	93,5%	—	—	GPT-5.5 немного выше Claude.^[1]
Artificial Analysis leaderboard	57, GPT-5.5 medium	52, Claude Opus 4.7 non-reasoning high	54	—	В этом срезе GPT-5.5 выше Kimi и указанного режима Claude; DeepSeek V4 в доступном фрагменте не показан.^[13]
Humanity’s Last Exam без инструментов, VentureBeat	41,4%	46,9%	—	37,7%	Claude лидирует среди показанных базовых строк.^[3]
Humanity’s Last Exam с инструментами, VentureBeat	52,2%; GPT-5.5 Pro — 57,2%	54,7%	—	48,2%	Claude выше базового GPT-5.5, но отдельная строка GPT-5.5 Pro выше Claude.^[3]
Terminal-Bench 2.0, VentureBeat	82,7%	69,4%	—	67,9%	Самый явный перевес GPT-5.5 в этой подборке.^[3]
SWE-Bench Pro, DataCamp	58,6%	64,3%	—	55,4%, DeepSeek V4 Pro	Claude выше GPT-5.5 и DeepSeek V4 Pro.^[9]
SWE-Bench Verified, Verdent	—	87,6%	80,2%	—	Claude выше Kimi в этом coding-срезе.^[6]
Coding benchmark, AkitaOnRails	96, GPT-5.5 xHigh/Codex	97	87	78, V4 Flash; 69, V4 Pro	Claude и GPT-5.5 почти равны; Kimi выше обеих строк DeepSeek V4.^[8]

Почему нельзя объявить одного чемпиона

Где сильнее GPT-5.5

Где сильнее Claude Opus 4.7

Как оценивать Kimi K2.6

Что показывает DeepSeek V4

Какую модель тестировать первой

ARC, visual reasoning и абстрактные пазлы: начните с GPT-5.5, потому что в доступном DocsBot-сравнении он выше Claude Opus 4.7 на ARC-AGI-2 и ARC-AGI-1.^[1]
Hard reasoning и HLE-style задачи: начните с Claude Opus 4.7, если сравниваете базовые строки; при этом отдельная строка GPT-5.5 Pro в VentureBeat выше Claude на HLE с инструментами.^[3]
Terminal, shell-driven agents и tool-use: начните с GPT-5.5, потому что Terminal-Bench 2.0 — его самый сильный прямой результат в этих источниках.^[3]^[4]
SWE-Bench Pro и review-heavy software engineering: начните с Claude Opus 4.7, поскольку DataCamp и LLM Stats оба указывают преимущество Claude в SWE-Bench Pro.^[9]^[4]
Open-weight или self-hosted coding/agentic сценарии: протестируйте Kimi K2.6 на собственных задачах, если возможность запуска через Hugging Face, vLLM, SGLang или KTransformers важнее доступа только через API.^[6]
Бюджетные high-volume эксперименты: рассмотрите DeepSeek V4, если цена за попытку важнее максимального benchmark score.^[2]^[3]^[9]

Итог

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro.
Kimi K2.6 лучше читать как сильного coding/agentic кандидата: 54 в Artificial Analysis и 87 в coding бенчмарке AkitaOnRails, но прямых сравнений со всеми тремя конкурентами меньше.
DeepSeek V4 чаще ниже по raw score в доступных строках, зато дешевле: $1.74 за 1 млн input tokens и $3.48 за 1 млн output tokens против $5/$30 у GPT 5.5 и $5/$25 у Claude Opus 4.7.

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4: сравнение бенчмарков»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: benchmarks 2026 y veredicto».

Открыть связанную страницу

Продолжайте свое исследование

GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4: где какая модель лидирует

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: сравнение бенчмарков

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: benchmarks 2026 y veredicto

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: comparativa de benchmarks 2026

DeepSeek V4 工程解析：1M 上下文、MoE 与 API 迁移要点

Northwest vs. Southeast Timber 彈性題解：為什麼是 larger; larger

Northwest 與 Southeast Timber：替代性越高，為什麼答案是 larger; larger？

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI26 апр. 202627 источники

Цитируемый ответ

Key findings

Модель	Что есть по бенчмаркам в доступных данных	Вывод
GPT-5.5	85% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium ^[5]^[6]	Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.7	75.8% на ARC-AGI-2 против 85% у GPT-5.5 ^[5]	В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.6	54 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[6]^[3]	Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4	В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам ^[7]	Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта ^[5].
В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе ^[6].
Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[3].
Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя ^[7].

Evidence notes

Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% ^[5].
Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 ^[6].
Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках ^[3].

Limitations / uncertainty

Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.
Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score ^[7].
Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Источники

[1] Claude Opus 4.7 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
Benchmark Claude Opus 4.7 GPT-5.5 --- ARC-AGI-2 Visual reasoning puzzles benchmark, ARC Prize Verified, testing abstract reasoning and visual problem-solving 75.8% Verified Source 85% Verified Source ARC-AGI-1 Abstract reasoning benchmark (ARC Prize Verifie...
[2] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[8] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[9] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[13] Comparison of over 100 AI models from OpenAI, Google, DeepSeek ...artificialanalysis.ai
GPT-5.5 (medium) 922k OpenAIOpenAI 57 -- -- Model Providers Kimi K2.6 256k KimiKimi 54 $1.71 134 1.04 38.01 Model Providers MiMo-V2.5-Pro 1M XiaomiXiaomi 54 $1.50 59 2.80 44.98 Model Providers GPT-5.3 Codex (xhigh) 400k OpenAIOpenAI 54 $4.81 68 87.92 95.31...
[25] README.md · unsloth/Kimi-K2.6-GGUF at b537b6bb8a5ccb31ab0336cd0478ba91d57794dbhuggingface.co
Benchmark Kimi K2.6 GPT-5.4 (xhigh) Claude Opus 4.6 (max effort) Gemini 3.1 Pro (thinking high) Kimi K2.5 --- --- --- Agentic HLE-Full (w/ tools) 54.0 52.1 53.0 51.4 50.2 BrowseComp 83.2 82.7 83.7 85.9 74.9 BrowseComp (Agent Swarm) 86.3 78.4 DeepSearchQA (f...

Популярное в «Открыть»

ОтчетыОпубликовано28 апр. 2026Last edited 6 мая 20269 источники

GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4: сравнение бенчмарков

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

17K0

Короткий вердикт по моделям

GPT-5.5 — первый кандидат для ARC-задач и terminal-style агентных сценариев: DocsBot указывает 85% на ARC-AGI-2 против 75,8% у Claude Opus 4.7, а VentureBeat приводит 82,7% на Terminal-Bench 2.0 против 69,4% у Claude и 67,9% у DeepSeek.^[1]^[3]
Claude Opus 4.7 — сильнейший в доступных строках по HLE и SWE-Bench Pro: VentureBeat показывает Claude выше GPT-5.5 и DeepSeek на Humanity’s Last Exam без инструментов и с инструментами, а DataCamp указывает 64,3% на SWE-Bench Pro против 58,6% у GPT-5.5 и 55,4% у DeepSeek V4 Pro.^[3]^[9]
Kimi K2.6 — сильный coding/agentic кандидат, но не везде представлен в тех же таблицах: в Artificial Analysis он получает 54 против 57 у GPT-5.5 medium и 52 у Claude Opus 4.7 non-reasoning high, а в coding-бенчмарке AkitaOnRails — 87.^[13]^[8]
DeepSeek V4 — скорее price-performance вариант, чем benchmark-лидер в этих источниках: Mashable указывает $1.74 за 1 млн input tokens и $3.48 за 1 млн output tokens против $5/$30 у GPT-5.5 и $5/$25 у Claude Opus 4.7.^[2]

Сравнительная таблица бенчмарков

Знак — означает, что в предоставленном фрагменте источника нет сопоставимого результата для этой модели.

Бенчмарк / источник	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	Что показывает строка
ARC-AGI-2, DocsBot	85%	75,8%	—	—	GPT-5.5 впереди Claude на 9,2 п.п.^[1]
ARC-AGI-1, DocsBot	95%	93,5%	—	—	GPT-5.5 немного выше Claude.^[1]
Artificial Analysis leaderboard	57, GPT-5.5 medium	52, Claude Opus 4.7 non-reasoning high	54	—	В этом срезе GPT-5.5 выше Kimi и указанного режима Claude; DeepSeek V4 в доступном фрагменте не показан.^[13]
Humanity’s Last Exam без инструментов, VentureBeat	41,4%	46,9%	—	37,7%	Claude лидирует среди показанных базовых строк.^[3]
Humanity’s Last Exam с инструментами, VentureBeat	52,2%; GPT-5.5 Pro — 57,2%	54,7%	—	48,2%	Claude выше базового GPT-5.5, но отдельная строка GPT-5.5 Pro выше Claude.^[3]
Terminal-Bench 2.0, VentureBeat	82,7%	69,4%	—	67,9%	Самый явный перевес GPT-5.5 в этой подборке.^[3]
SWE-Bench Pro, DataCamp	58,6%	64,3%	—	55,4%, DeepSeek V4 Pro	Claude выше GPT-5.5 и DeepSeek V4 Pro.^[9]
SWE-Bench Verified, Verdent	—	87,6%	80,2%	—	Claude выше Kimi в этом coding-срезе.^[6]
Coding benchmark, AkitaOnRails	96, GPT-5.5 xHigh/Codex	97	87	78, V4 Flash; 69, V4 Pro	Claude и GPT-5.5 почти равны; Kimi выше обеих строк DeepSeek V4.^[8]

Почему нельзя объявить одного чемпиона

Где сильнее GPT-5.5

Где сильнее Claude Opus 4.7

Как оценивать Kimi K2.6

Что показывает DeepSeek V4

Какую модель тестировать первой

ARC, visual reasoning и абстрактные пазлы: начните с GPT-5.5, потому что в доступном DocsBot-сравнении он выше Claude Opus 4.7 на ARC-AGI-2 и ARC-AGI-1.^[1]
Hard reasoning и HLE-style задачи: начните с Claude Opus 4.7, если сравниваете базовые строки; при этом отдельная строка GPT-5.5 Pro в VentureBeat выше Claude на HLE с инструментами.^[3]
Terminal, shell-driven agents и tool-use: начните с GPT-5.5, потому что Terminal-Bench 2.0 — его самый сильный прямой результат в этих источниках.^[3]^[4]
SWE-Bench Pro и review-heavy software engineering: начните с Claude Opus 4.7, поскольку DataCamp и LLM Stats оба указывают преимущество Claude в SWE-Bench Pro.^[9]^[4]
Open-weight или self-hosted coding/agentic сценарии: протестируйте Kimi K2.6 на собственных задачах, если возможность запуска через Hugging Face, vLLM, SGLang или KTransformers важнее доступа только через API.^[6]
Бюджетные high-volume эксперименты: рассмотрите DeepSeek V4, если цена за попытку важнее максимального benchmark score.^[2]^[3]^[9]

Итог

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro.
Kimi K2.6 лучше читать как сильного coding/agentic кандидата: 54 в Artificial Analysis и 87 в coding бенчмарке AkitaOnRails, но прямых сравнений со всеми тремя конкурентами меньше.
DeepSeek V4 чаще ниже по raw score в доступных строках, зато дешевле: $1.74 за 1 млн input tokens и $3.48 за 1 млн output tokens против $5/$30 у GPT 5.5 и $5/$25 у Claude Opus 4.7.

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4: сравнение бенчмарков»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: benchmarks 2026 y veredicto».

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI26 апр. 202627 источники

Цитируемый ответ

Key findings

Модель	Что есть по бенчмаркам в доступных данных	Вывод
GPT-5.5	85% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium ^[5]^[6]	Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.7	75.8% на ARC-AGI-2 против 85% у GPT-5.5 ^[5]	В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.6	54 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[6]^[3]	Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4	В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам ^[7]	Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта ^[5].
В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе ^[6].
Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[3].
Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя ^[7].

Evidence notes

Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% ^[5].
Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 ^[6].
Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках ^[3].

Limitations / uncertainty

Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.
Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score ^[7].
Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Источники

[1] Claude Opus 4.7 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
Benchmark Claude Opus 4.7 GPT-5.5 --- ARC-AGI-2 Visual reasoning puzzles benchmark, ARC Prize Verified, testing abstract reasoning and visual problem-solving 75.8% Verified Source 85% Verified Source ARC-AGI-1 Abstract reasoning benchmark (ARC Prize Verifie...
[2] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[8] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[9] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[13] Comparison of over 100 AI models from OpenAI, Google, DeepSeek ...artificialanalysis.ai
GPT-5.5 (medium) 922k OpenAIOpenAI 57 -- -- Model Providers Kimi K2.6 256k KimiKimi 54 $1.71 134 1.04 38.01 Model Providers MiMo-V2.5-Pro 1M XiaomiXiaomi 54 $1.50 59 2.80 44.98 Model Providers GPT-5.3 Codex (xhigh) 400k OpenAIOpenAI 54 $4.81 68 87.92 95.31...
[25] README.md · unsloth/Kimi-K2.6-GGUF at b537b6bb8a5ccb31ab0336cd0478ba91d57794dbhuggingface.co
Benchmark Kimi K2.6 GPT-5.4 (xhigh) Claude Opus 4.6 (max effort) Gemini 3.1 Pro (thinking high) Kimi K2.5 --- --- --- Agentic HLE-Full (w/ tools) 54.0 52.1 53.0 51.4 50.2 BrowseComp 83.2 82.7 83.7 85.9 74.9 BrowseComp (Agent Swarm) 86.3 78.4 DeepSearchQA (f...