studioglobal
Популярное в «Открыть»
ОтчетыОпубликовано9 источники

GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4: сравнение бенчмарков

Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro. Kimi K2.6 лучше читать как сильного coding/agentic кандидата: 54 в Artificial Analysis и 87 в coding бенчмарке AkitaOnRails, но прямых сравнений со всеми трем...

17K0
Сравнение четырёх AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 на фоне графиков бенчмарков
GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахСравнение бенчмарков показывает не одного абсолютного лидера, а разные сильные стороны моделей.
Промпт ИИ

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro; вывод ограничен тем, что источники сравнивают разные режим.... Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.

openai.com

Свести GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 к одному «победителю» нельзя: доступные источники показывают разные бенчмарки, разные режимы моделей и неполные пересечения. Но практическая картина понятна: GPT-5.5 выглядит сильнее в ARC и terminal-style агентных задачах, Claude Opus 4.7 — в HLE и SWE-Bench Pro, Kimi K2.6 — конкурентный coding/open-weight вариант с меньшим числом прямых сравнений, а DeepSeek V4 чаще проигрывает по максимальному score, но заметно выигрывает по цене API.[1][2][3][4][6][8][9][13]

Короткий вердикт по моделям

  • GPT-5.5 — первый кандидат для ARC-задач и terminal-style агентных сценариев: DocsBot указывает 85% на ARC-AGI-2 против 75,8% у Claude Opus 4.7, а VentureBeat приводит 82,7% на Terminal-Bench 2.0 против 69,4% у Claude и 67,9% у DeepSeek.[1][3]
  • Claude Opus 4.7 — сильнейший в доступных строках по HLE и SWE-Bench Pro: VentureBeat показывает Claude выше GPT-5.5 и DeepSeek на Humanity’s Last Exam без инструментов и с инструментами, а DataCamp указывает 64,3% на SWE-Bench Pro против 58,6% у GPT-5.5 и 55,4% у DeepSeek V4 Pro.[3][9]
  • Kimi K2.6 — сильный coding/agentic кандидат, но не везде представлен в тех же таблицах: в Artificial Analysis он получает 54 против 57 у GPT-5.5 medium и 52 у Claude Opus 4.7 non-reasoning high, а в coding-бенчмарке AkitaOnRails — 87.[13][8]
  • DeepSeek V4 — скорее price-performance вариант, чем benchmark-лидер в этих источниках: Mashable указывает $1.74 за 1 млн input tokens и $3.48 за 1 млн output tokens против $5/$30 у GPT-5.5 и $5/$25 у Claude Opus 4.7.[2]

Сравнительная таблица бенчмарков

Знак означает, что в предоставленном фрагменте источника нет сопоставимого результата для этой модели.

Бенчмарк / источникGPT-5.5Claude Opus 4.7Kimi K2.6DeepSeek V4Что показывает строка
ARC-AGI-2, DocsBot85%75,8%GPT-5.5 впереди Claude на 9,2 п.п.[1]
ARC-AGI-1, DocsBot95%93,5%GPT-5.5 немного выше Claude.[1]
Artificial Analysis leaderboard57, GPT-5.5 medium52, Claude Opus 4.7 non-reasoning high54В этом срезе GPT-5.5 выше Kimi и указанного режима Claude; DeepSeek V4 в доступном фрагменте не показан.[13]
Humanity’s Last Exam без инструментов, VentureBeat41,4%46,9%37,7%Claude лидирует среди показанных базовых строк.[3]
Humanity’s Last Exam с инструментами, VentureBeat52,2%; GPT-5.5 Pro — 57,2%54,7%48,2%Claude выше базового GPT-5.5, но отдельная строка GPT-5.5 Pro выше Claude.[3]
Terminal-Bench 2.0, VentureBeat82,7%69,4%67,9%Самый явный перевес GPT-5.5 в этой подборке.[3]
SWE-Bench Pro, DataCamp58,6%64,3%55,4%, DeepSeek V4 ProClaude выше GPT-5.5 и DeepSeek V4 Pro.[9]
SWE-Bench Verified, Verdent87,6%80,2%Claude выше Kimi в этом coding-срезе.[6]
Coding benchmark, AkitaOnRails96, GPT-5.5 xHigh/Codex978778, V4 Flash; 69, V4 ProClaude и GPT-5.5 почти равны; Kimi выше обеих строк DeepSeek V4.[8]

Почему нельзя объявить одного чемпиона

Главная проблема — не отсутствие сильных результатов, а несопоставимость части строк. Artificial Analysis сравнивает GPT-5.5 medium, Kimi K2.6 и Claude Opus 4.7 non-reasoning high; AkitaOnRails использует GPT-5.5 xHigh/Codex и отдельные строки DeepSeek V4 Flash и DeepSeek V4 Pro; VentureBeat отдельно показывает GPT-5.5 и GPT-5.5 Pro.[13][8][3]

Даже прямое сравнение GPT-5.5 и Claude Opus 4.7 даёт неоднозначный итог. LLM Stats пишет, что на 10 бенчмарках, которые репортят оба провайдера, Opus 4.7 лидирует на 6, а GPT-5.5 — на 4; преимущества Claude сгруппированы вокруг reasoning-heavy и review-grade тестов, а преимущества GPT-5.5 — вокруг long-running tool-use и shell-driven задач.[4]

Где сильнее GPT-5.5

Самые убедительные сигналы в пользу GPT-5.5 — ARC и Terminal-Bench. В ARC-AGI-2 GPT-5.5 получает 85% против 75,8% у Claude Opus 4.7, а в ARC-AGI-1 — 95% против 93,5%.[1] В Terminal-Bench 2.0 GPT-5.5 набирает 82,7%, заметно выше Claude Opus 4.7 с 69,4% и DeepSeek с 67,9%.[3]

Artificial Analysis тоже ставит GPT-5.5 medium выше двух доступных конкурентов из этой группы: 57 против 54 у Kimi K2.6 и 52 у Claude Opus 4.7 non-reasoning high.[13] Но это не универсальный рейтинг всех режимов: LLM Stats отдельно показывает, что Claude Opus 4.7 выигрывает у GPT-5.5 часть reasoning и software-engineering тестов.[4]

Где сильнее Claude Opus 4.7

Claude Opus 4.7 лучше всего выглядит там, где важны тяжёлое рассуждение и проверка сложного кода. На Humanity’s Last Exam без инструментов VentureBeat указывает 46,9% для Claude, 41,4% для GPT-5.5 и 37,7% для DeepSeek; с инструментами — 54,7% для Claude, 52,2% для GPT-5.5 и 48,2% для DeepSeek.[3]

На SWE-Bench Pro DataCamp приводит 64,3% для Claude Opus 4.7, 58,6% для GPT-5.5 и 55,4% для DeepSeek V4 Pro.[9] Это совпадает с общей картиной LLM Stats: Claude ведёт у GPT-5.5 на GPQA, HLE без инструментов, HLE с инструментами, SWE-Bench Pro, MCP Atlas и FinanceAgent v1.1.[4]

Как оценивать Kimi K2.6

Kimi K2.6 сложно поставить в один полный рейтинг с GPT-5.5, Claude Opus 4.7 и DeepSeek V4, потому что он не всегда присутствует в тех же таблицах. В доступном фрагменте Artificial Analysis Kimi K2.6 получает 54, уступая GPT-5.5 medium с 57, но опережая Claude Opus 4.7 non-reasoning high с 52.[13]

В coding-бенчмарке AkitaOnRails Kimi K2.6 получает 87: ниже Claude Opus 4.7 с 97 и GPT-5.5 xHigh/Codex с 96, но выше DeepSeek V4 Flash с 78 и DeepSeek V4 Pro с 69.[8] В отдельном сравнении Verdent по SWE-Bench Verified указаны 80,2% для Kimi K2.6 и 87,6% для Claude Opus 4.7.[6]

Практическое отличие Kimi — open-weight маршрут. Verdent пишет, что K2.6 weights доступны на Hugging Face и запускаются через vLLM, SGLang или KTransformers; тот же источник указывает минимально жизнеспособную конфигурацию 4× H100 для INT4-варианта при уменьшенном контексте.[6] README на Hugging Face также приводит для Kimi K2.6 агентные метрики вроде HLE-Full с инструментами 54,0, BrowseComp 83,2, DeepSearchQA f1-score 92,5, Toolathlon 50,0 и MCPMark 55,9, но эта таблица сравнивает Kimi в основном с GPT-5.4, Claude Opus 4.6 и Gemini 3.1 Pro, а не с полным набором моделей из этого обзора.[25]

Что показывает DeepSeek V4

В приведённых источниках DeepSeek V4 чаще выглядит как value-модель, а не как лидер по максимальному benchmark score. В VentureBeat DeepSeek ниже GPT-5.5 и Claude Opus 4.7 на HLE без инструментов, HLE с инструментами и Terminal-Bench 2.0.[3] В DataCamp DeepSeek V4 Pro получает 55,4% на SWE-Bench Pro против 58,6% у GPT-5.5 и 64,3% у Claude Opus 4.7.[9] В AkitaOnRails DeepSeek V4 Flash получает 78, а DeepSeek V4 Pro — 69, что ниже Kimi K2.6, GPT-5.5 xHigh/Codex и Claude Opus 4.7 в той же таблице.[8]

Зато цена меняет продуктовую логику. Mashable указывает для DeepSeek V4 $1.74 за 1 млн input tokens и $3.48 за 1 млн output tokens, тогда как GPT-5.5 указан как $5/$30, а Claude Opus 4.7 — как $5/$25.[2] Это не делает DeepSeek победителем бенчмарков, но может сделать его разумным первым кандидатом для массовых черновиков, low-risk задач и дешёвых внутренних evals.

Какую модель тестировать первой

  • ARC, visual reasoning и абстрактные пазлы: начните с GPT-5.5, потому что в доступном DocsBot-сравнении он выше Claude Opus 4.7 на ARC-AGI-2 и ARC-AGI-1.[1]
  • Hard reasoning и HLE-style задачи: начните с Claude Opus 4.7, если сравниваете базовые строки; при этом отдельная строка GPT-5.5 Pro в VentureBeat выше Claude на HLE с инструментами.[3]
  • Terminal, shell-driven agents и tool-use: начните с GPT-5.5, потому что Terminal-Bench 2.0 — его самый сильный прямой результат в этих источниках.[3][4]
  • SWE-Bench Pro и review-heavy software engineering: начните с Claude Opus 4.7, поскольку DataCamp и LLM Stats оба указывают преимущество Claude в SWE-Bench Pro.[9][4]
  • Open-weight или self-hosted coding/agentic сценарии: протестируйте Kimi K2.6 на собственных задачах, если возможность запуска через Hugging Face, vLLM, SGLang или KTransformers важнее доступа только через API.[6]
  • Бюджетные high-volume эксперименты: рассмотрите DeepSeek V4, если цена за попытку важнее максимального benchmark score.[2][3][9]

Итог

По benchmark-only картине верхняя пара — GPT-5.5 и Claude Opus 4.7, но они сильны в разных местах. GPT-5.5 лучше смотрится в ARC и Terminal-Bench, Claude Opus 4.7 — в HLE и SWE-Bench Pro.[1][3][4][9] Kimi K2.6 остаётся сильным coding/agentic кандидатом, особенно если нужен путь к запуску с весами, но прямых общих сравнений меньше.[6][8][13] DeepSeek V4 в этих данных чаще ниже по raw score, зато его API-цена делает его заметным вариантом для price-performance пилотов.[2][3][9]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

  • Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro.
  • Kimi K2.6 лучше читать как сильного coding/agentic кандидата: 54 в Artificial Analysis и 87 в coding бенчмарке AkitaOnRails, но прямых сравнений со всеми тремя конкурентами меньше.
  • DeepSeek V4 чаще ниже по raw score в доступных строках, зато дешевле: $1.74 за 1 млн input tokens и $3.48 за 1 млн output tokens против $5/$30 у GPT 5.5 и $5/$25 у Claude Opus 4.7.

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4: сравнение бенчмарков»?

Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro.

Какие ключевые моменты необходимо проверить в первую очередь?

Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro. Kimi K2.6 лучше читать как сильного coding/agentic кандидата: 54 в Artificial Analysis и 87 в coding бенчмарке AkitaOnRails, но прямых сравнений со всеми тремя конкурентами меньше.

Что мне делать дальше на практике?

DeepSeek V4 чаще ниже по raw score в доступных строках, зато дешевле: $1.74 за 1 млн input tokens и $3.48 за 1 млн output tokens против $5/$30 у GPT 5.5 и $5/$25 у Claude Opus 4.7.

Какую связанную тему мне следует изучить дальше?

Продолжайте с «GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4: где какая модель лидирует», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы

Вопрос исследования

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI27 источники

Цитируемый ответ

По доступным фрагментам доказательств полноценное сравнение всех четырёх моделей “один к одному” сделать нельзя: есть частичные данные для GPT-5.5, Claude Opus 4.7 и Kimi K2.6, но в предоставленных источниках нет сопоставимых бенчмарков для DeepSeek V4. В имеющихся данных GPT-5.5 выглядит сильнее Claude Opus 4.7 на ARC-AGI-2 и немного выше Kimi K2.6 в общем рейтинге Artificial Analysis, а Kimi K2.6 имеет сильные отдельные результаты на агентных и coding-бенчмарках.

Key findings

МодельЧто есть по бенчмаркам в доступных данныхВывод
GPT-5.585% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium [5][6]Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.775.8% на ARC-AGI-2 против 85% у GPT-5.5 [5]В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.654 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual [6][3]Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам [7]Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

  • На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта [5].

  • В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе [6].

  • Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual [3].

  • Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя [7].

Evidence notes

  • Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% [5].

  • Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 [6].

  • Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках [3].

Limitations / uncertainty

  • Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.

  • Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score [7].

  • Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Если опираться только на предоставленные данные, GPT-5.5 выглядит лидером в имеющихся прямых сравнениях: он выше Claude Opus 4.7 на ARC-AGI-2 и выше Kimi K2.6 в фрагменте Artificial Analysis [5][6]. Kimi K2.6 имеет сильные подтверждённые результаты на агентных и coding-бенчмарках, включая SWE-bench Verified 65.8 [3]. Для DeepSeek V4 в предоставленных данных недостаточно benchmark-информации, поэтому корректно сравнить его с остальными по бенчмаркам невозможно [7].

Источники