Свести GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 к одному «победителю» нельзя: доступные источники показывают разные бенчмарки, разные режимы моделей и неполные пересечения. Но практическая картина понятна: GPT-5.5 выглядит сильнее в ARC и terminal-style агентных задачах, Claude Opus 4.7 — в HLE и SWE-Bench Pro, Kimi K2.6 — конкурентный coding/open-weight вариант с меньшим числом прямых сравнений, а DeepSeek V4 чаще проигрывает по максимальному score, но заметно выигрывает по цене API.[1][
2][
3][
4][
6][
8][
9][
13]
Короткий вердикт по моделям
- GPT-5.5 — первый кандидат для ARC-задач и terminal-style агентных сценариев: DocsBot указывает 85% на ARC-AGI-2 против 75,8% у Claude Opus 4.7, а VentureBeat приводит 82,7% на Terminal-Bench 2.0 против 69,4% у Claude и 67,9% у DeepSeek.[
1][
3]
- Claude Opus 4.7 — сильнейший в доступных строках по HLE и SWE-Bench Pro: VentureBeat показывает Claude выше GPT-5.5 и DeepSeek на Humanity’s Last Exam без инструментов и с инструментами, а DataCamp указывает 64,3% на SWE-Bench Pro против 58,6% у GPT-5.5 и 55,4% у DeepSeek V4 Pro.[
3][
9]
- Kimi K2.6 — сильный coding/agentic кандидат, но не везде представлен в тех же таблицах: в Artificial Analysis он получает 54 против 57 у GPT-5.5 medium и 52 у Claude Opus 4.7 non-reasoning high, а в coding-бенчмарке AkitaOnRails — 87.[
13][
8]
- DeepSeek V4 — скорее price-performance вариант, чем benchmark-лидер в этих источниках: Mashable указывает $1.74 за 1 млн input tokens и $3.48 за 1 млн output tokens против $5/$30 у GPT-5.5 и $5/$25 у Claude Opus 4.7.[
2]
Сравнительная таблица бенчмарков
Знак — означает, что в предоставленном фрагменте источника нет сопоставимого результата для этой модели.
| Бенчмарк / источник | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4 | Что показывает строка |
|---|---|---|---|---|---|
| ARC-AGI-2, DocsBot | 85% | 75,8% | — | — | GPT-5.5 впереди Claude на 9,2 п.п.[ |
| ARC-AGI-1, DocsBot | 95% | 93,5% | — | — | GPT-5.5 немного выше Claude.[ |
| Artificial Analysis leaderboard | 57, GPT-5.5 medium | 52, Claude Opus 4.7 non-reasoning high | 54 | — | В этом срезе GPT-5.5 выше Kimi и указанного режима Claude; DeepSeek V4 в доступном фрагменте не показан.[ |
| Humanity’s Last Exam без инструментов, VentureBeat | 41,4% | 46,9% | — | 37,7% | Claude лидирует среди показанных базовых строк.[ |
| Humanity’s Last Exam с инструментами, VentureBeat | 52,2%; GPT-5.5 Pro — 57,2% | 54,7% | — | 48,2% | Claude выше базового GPT-5.5, но отдельная строка GPT-5.5 Pro выше Claude.[ |
| Terminal-Bench 2.0, VentureBeat | 82,7% | 69,4% | — | 67,9% | Самый явный перевес GPT-5.5 в этой подборке.[ |
| SWE-Bench Pro, DataCamp | 58,6% | 64,3% | — | 55,4%, DeepSeek V4 Pro | Claude выше GPT-5.5 и DeepSeek V4 Pro.[ |
| SWE-Bench Verified, Verdent | — | 87,6% | 80,2% | — | Claude выше Kimi в этом coding-срезе.[ |
| Coding benchmark, AkitaOnRails | 96, GPT-5.5 xHigh/Codex | 97 | 87 | 78, V4 Flash; 69, V4 Pro | Claude и GPT-5.5 почти равны; Kimi выше обеих строк DeepSeek V4.[ |
Почему нельзя объявить одного чемпиона
Главная проблема — не отсутствие сильных результатов, а несопоставимость части строк. Artificial Analysis сравнивает GPT-5.5 medium, Kimi K2.6 и Claude Opus 4.7 non-reasoning high; AkitaOnRails использует GPT-5.5 xHigh/Codex и отдельные строки DeepSeek V4 Flash и DeepSeek V4 Pro; VentureBeat отдельно показывает GPT-5.5 и GPT-5.5 Pro.[13][
8][
3]
Даже прямое сравнение GPT-5.5 и Claude Opus 4.7 даёт неоднозначный итог. LLM Stats пишет, что на 10 бенчмарках, которые репортят оба провайдера, Opus 4.7 лидирует на 6, а GPT-5.5 — на 4; преимущества Claude сгруппированы вокруг reasoning-heavy и review-grade тестов, а преимущества GPT-5.5 — вокруг long-running tool-use и shell-driven задач.[4]
Где сильнее GPT-5.5
Самые убедительные сигналы в пользу GPT-5.5 — ARC и Terminal-Bench. В ARC-AGI-2 GPT-5.5 получает 85% против 75,8% у Claude Opus 4.7, а в ARC-AGI-1 — 95% против 93,5%.[1] В Terminal-Bench 2.0 GPT-5.5 набирает 82,7%, заметно выше Claude Opus 4.7 с 69,4% и DeepSeek с 67,9%.[
3]
Artificial Analysis тоже ставит GPT-5.5 medium выше двух доступных конкурентов из этой группы: 57 против 54 у Kimi K2.6 и 52 у Claude Opus 4.7 non-reasoning high.[13] Но это не универсальный рейтинг всех режимов: LLM Stats отдельно показывает, что Claude Opus 4.7 выигрывает у GPT-5.5 часть reasoning и software-engineering тестов.[
4]
Где сильнее Claude Opus 4.7
Claude Opus 4.7 лучше всего выглядит там, где важны тяжёлое рассуждение и проверка сложного кода. На Humanity’s Last Exam без инструментов VentureBeat указывает 46,9% для Claude, 41,4% для GPT-5.5 и 37,7% для DeepSeek; с инструментами — 54,7% для Claude, 52,2% для GPT-5.5 и 48,2% для DeepSeek.[3]
На SWE-Bench Pro DataCamp приводит 64,3% для Claude Opus 4.7, 58,6% для GPT-5.5 и 55,4% для DeepSeek V4 Pro.[9] Это совпадает с общей картиной LLM Stats: Claude ведёт у GPT-5.5 на GPQA, HLE без инструментов, HLE с инструментами, SWE-Bench Pro, MCP Atlas и FinanceAgent v1.1.[
4]
Как оценивать Kimi K2.6
Kimi K2.6 сложно поставить в один полный рейтинг с GPT-5.5, Claude Opus 4.7 и DeepSeek V4, потому что он не всегда присутствует в тех же таблицах. В доступном фрагменте Artificial Analysis Kimi K2.6 получает 54, уступая GPT-5.5 medium с 57, но опережая Claude Opus 4.7 non-reasoning high с 52.[13]
В coding-бенчмарке AkitaOnRails Kimi K2.6 получает 87: ниже Claude Opus 4.7 с 97 и GPT-5.5 xHigh/Codex с 96, но выше DeepSeek V4 Flash с 78 и DeepSeek V4 Pro с 69.[8] В отдельном сравнении Verdent по SWE-Bench Verified указаны 80,2% для Kimi K2.6 и 87,6% для Claude Opus 4.7.[
6]
Практическое отличие Kimi — open-weight маршрут. Verdent пишет, что K2.6 weights доступны на Hugging Face и запускаются через vLLM, SGLang или KTransformers; тот же источник указывает минимально жизнеспособную конфигурацию 4× H100 для INT4-варианта при уменьшенном контексте.[6] README на Hugging Face также приводит для Kimi K2.6 агентные метрики вроде HLE-Full с инструментами 54,0, BrowseComp 83,2, DeepSearchQA f1-score 92,5, Toolathlon 50,0 и MCPMark 55,9, но эта таблица сравнивает Kimi в основном с GPT-5.4, Claude Opus 4.6 и Gemini 3.1 Pro, а не с полным набором моделей из этого обзора.[
25]
Что показывает DeepSeek V4
В приведённых источниках DeepSeek V4 чаще выглядит как value-модель, а не как лидер по максимальному benchmark score. В VentureBeat DeepSeek ниже GPT-5.5 и Claude Opus 4.7 на HLE без инструментов, HLE с инструментами и Terminal-Bench 2.0.[3] В DataCamp DeepSeek V4 Pro получает 55,4% на SWE-Bench Pro против 58,6% у GPT-5.5 и 64,3% у Claude Opus 4.7.[
9] В AkitaOnRails DeepSeek V4 Flash получает 78, а DeepSeek V4 Pro — 69, что ниже Kimi K2.6, GPT-5.5 xHigh/Codex и Claude Opus 4.7 в той же таблице.[
8]
Зато цена меняет продуктовую логику. Mashable указывает для DeepSeek V4 $1.74 за 1 млн input tokens и $3.48 за 1 млн output tokens, тогда как GPT-5.5 указан как $5/$30, а Claude Opus 4.7 — как $5/$25.[2] Это не делает DeepSeek победителем бенчмарков, но может сделать его разумным первым кандидатом для массовых черновиков, low-risk задач и дешёвых внутренних evals.
Какую модель тестировать первой
- ARC, visual reasoning и абстрактные пазлы: начните с GPT-5.5, потому что в доступном DocsBot-сравнении он выше Claude Opus 4.7 на ARC-AGI-2 и ARC-AGI-1.[
1]
- Hard reasoning и HLE-style задачи: начните с Claude Opus 4.7, если сравниваете базовые строки; при этом отдельная строка GPT-5.5 Pro в VentureBeat выше Claude на HLE с инструментами.[
3]
- Terminal, shell-driven agents и tool-use: начните с GPT-5.5, потому что Terminal-Bench 2.0 — его самый сильный прямой результат в этих источниках.[
3][
4]
- SWE-Bench Pro и review-heavy software engineering: начните с Claude Opus 4.7, поскольку DataCamp и LLM Stats оба указывают преимущество Claude в SWE-Bench Pro.[
9][
4]
- Open-weight или self-hosted coding/agentic сценарии: протестируйте Kimi K2.6 на собственных задачах, если возможность запуска через Hugging Face, vLLM, SGLang или KTransformers важнее доступа только через API.[
6]
- Бюджетные high-volume эксперименты: рассмотрите DeepSeek V4, если цена за попытку важнее максимального benchmark score.[
2][
3][
9]
Итог
По benchmark-only картине верхняя пара — GPT-5.5 и Claude Opus 4.7, но они сильны в разных местах. GPT-5.5 лучше смотрится в ARC и Terminal-Bench, Claude Opus 4.7 — в HLE и SWE-Bench Pro.[1][
3][
4][
9] Kimi K2.6 остаётся сильным coding/agentic кандидатом, особенно если нужен путь к запуску с весами, но прямых общих сравнений меньше.[
6][
8][
13] DeepSeek V4 в этих данных чаще ниже по raw score, зато его API-цена делает его заметным вариантом для price-performance пилотов.[
2][
3][
9]




