Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro. Kimi K2.6 лучше читать как сильного coding/agentic кандидата: 54 в Artificial Analysis и 87 в coding бенчмарке AkitaOnRails, но прямых сравнений со всеми трем...

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro; вывод ограничен тем, что источники сравнивают разные режим.... Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). . [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.
Свести GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 к одному «победителю» нельзя: доступные источники показывают разные бенчмарки, разные режимы моделей и неполные пересечения. Но практическая картина понятна: GPT-5.5 выглядит сильнее в ARC и terminal-style агентных задачах, Claude Opus 4.7 — в HLE и SWE-Bench Pro, Kimi K2.6 — конкурентный coding/open-weight вариант с меньшим числом прямых сравнений, а DeepSeek V4 чаще проигрывает по максимальному score, но заметно выигрывает по цене API.
Знак — означает, что в предоставленном фрагменте источника нет сопоставимого результата для этой модели.
Главная проблема — не отсутствие сильных результатов, а несопоставимость части строк. Artificial Analysis сравнивает GPT-5.5 medium, Kimi K2.6 и Claude Opus 4.7 non-reasoning high; AkitaOnRails использует GPT-5.5 xHigh/Codex и отдельные строки DeepSeek V4 Flash и DeepSeek V4 Pro; VentureBeat отдельно показывает GPT-5.5 и GPT-5.5 Pro.
Даже прямое сравнение GPT-5.5 и Claude Opus 4.7 даёт неоднозначный итог. LLM Stats пишет, что на 10 бенчмарках, которые репортят оба провайдера, Opus 4.7 лидирует на 6, а GPT-5.5 — на 4; преимущества Claude сгруппированы вокруг reasoning-heavy и review-grade тестов, а преимущества GPT-5.5 — вокруг long-running tool-use и shell-driven задач.
Самые убедительные сигналы в пользу GPT-5.5 — ARC и Terminal-Bench. В ARC-AGI-2 GPT-5.5 получает 85% против 75,8% у Claude Opus 4.7, а в ARC-AGI-1 — 95% против 93,5%. В Terminal-Bench 2.0 GPT-5.5 набирает 82,7%, заметно выше Claude Opus 4.7 с 69,4% и DeepSeek с 67,9%.
Artificial Analysis тоже ставит GPT-5.5 medium выше двух доступных конкурентов из этой группы: 57 против 54 у Kimi K2.6 и 52 у Claude Opus 4.7 non-reasoning high. Но это не универсальный рейтинг всех режимов: LLM Stats отдельно показывает, что Claude Opus 4.7 выигрывает у GPT-5.5 часть reasoning и software-engineering тестов.
Claude Opus 4.7 лучше всего выглядит там, где важны тяжёлое рассуждение и проверка сложного кода. На Humanity’s Last Exam без инструментов VentureBeat указывает 46,9% для Claude, 41,4% для GPT-5.5 и 37,7% для DeepSeek; с инструментами — 54,7% для Claude, 52,2% для GPT-5.5 и 48,2% для DeepSeek.
На SWE-Bench Pro DataCamp приводит 64,3% для Claude Opus 4.7, 58,6% для GPT-5.5 и 55,4% для DeepSeek V4 Pro. Это совпадает с общей картиной LLM Stats: Claude ведёт у GPT-5.5 на GPQA, HLE без инструментов, HLE с инструментами, SWE-Bench Pro, MCP Atlas и FinanceAgent v1.1.
Kimi K2.6 сложно поставить в один полный рейтинг с GPT-5.5, Claude Opus 4.7 и DeepSeek V4, потому что он не всегда присутствует в тех же таблицах. В доступном фрагменте Artificial Analysis Kimi K2.6 получает 54, уступая GPT-5.5 medium с 57, но опережая Claude Opus 4.7 non-reasoning high с 52.
В coding-бенчмарке AkitaOnRails Kimi K2.6 получает 87: ниже Claude Opus 4.7 с 97 и GPT-5.5 xHigh/Codex с 96, но выше DeepSeek V4 Flash с 78 и DeepSeek V4 Pro с 69. В отдельном сравнении Verdent по SWE-Bench Verified указаны 80,2% для Kimi K2.6 и 87,6% для Claude Opus 4.7.
Практическое отличие Kimi — open-weight маршрут. Verdent пишет, что K2.6 weights доступны на Hugging Face и запускаются через vLLM, SGLang или KTransformers; тот же источник указывает минимально жизнеспособную конфигурацию 4× H100 для INT4-варианта при уменьшенном контексте. README на Hugging Face также приводит для Kimi K2.6 агентные метрики вроде HLE-Full с инструментами 54,0, BrowseComp 83,2, DeepSearchQA f1-score 92,5, Toolathlon 50,0 и MCPMark 55,9, но эта таблица сравнивает Kimi в основном с GPT-5.4, Claude Opus 4.6 и Gemini 3.1 Pro, а не с полным набором моделей из этого обзора.
В приведённых источниках DeepSeek V4 чаще выглядит как value-модель, а не как лидер по максимальному benchmark score. В VentureBeat DeepSeek ниже GPT-5.5 и Claude Opus 4.7 на HLE без инструментов, HLE с инструментами и Terminal-Bench 2.0. В DataCamp DeepSeek V4 Pro получает 55,4% на SWE-Bench Pro против 58,6% у GPT-5.5 и 64,3% у Claude Opus 4.7.
В AkitaOnRails DeepSeek V4 Flash получает 78, а DeepSeek V4 Pro — 69, что ниже Kimi K2.6, GPT-5.5 xHigh/Codex и Claude Opus 4.7 в той же таблице.
Зато цена меняет продуктовую логику. Mashable указывает для DeepSeek V4 $1.74 за 1 млн input tokens и $3.48 за 1 млн output tokens, тогда как GPT-5.5 указан как $5/$30, а Claude Opus 4.7 — как $5/$25. Это не делает DeepSeek победителем бенчмарков, но может сделать его разумным первым кандидатом для массовых черновиков, low-risk задач и дешёвых внутренних evals.
По benchmark-only картине верхняя пара — GPT-5.5 и Claude Opus 4.7, но они сильны в разных местах. GPT-5.5 лучше смотрится в ARC и Terminal-Bench, Claude Opus 4.7 — в HLE и SWE-Bench Pro. Kimi K2.6 остаётся сильным coding/agentic кандидатом, особенно если нужен путь к запуску с весами, но прямых общих сравнений меньше.
DeepSeek V4 в этих данных чаще ниже по raw score, зато его API-цена делает его заметным вариантом для price-performance пилотов.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro.
Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro. Kimi K2.6 лучше читать как сильного coding/agentic кандидата: 54 в Artificial Analysis и 87 в coding бенчмарке AkitaOnRails, но прямых сравнений со всеми тремя конкурентами меньше.
DeepSeek V4 чаще ниже по raw score в доступных строках, зато дешевле: $1.74 за 1 млн input tokens и $3.48 за 1 млн output tokens против $5/$30 у GPT 5.5 и $5/$25 у Claude Opus 4.7.
Loading comments...
Comments
0 comments