По открытым данным на апрель 2026 года сравнение GPT‑5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 нельзя честно свести к одной турнирной таблице. Это скорее карта рабочих нагрузок: какая модель лучше подходит для автономных агентов, какая — для ремонта реальных репозиториев, какая удобнее при требовании open-weights, а какую стоит включить в тесты длинного контекста.
Главная оговорка: бенчмарки из разных лабораторий, с разными инструментами, режимами усилия и evaluation harness не являются прямым сравнением яблоко к яблоку. LM Council отдельно предупреждает, что независимо запущенные бенчмарки могут не совпадать с self-reported результатами от разработчиков моделей. [12]
Короткий вывод
- Agentic computer-use, браузерные сценарии и terminal-heavy агенты: самый сильный публичный сигнал у GPT‑5.5. В launch-данных OpenAI указаны 82,7 % на Terminal‑Bench 2.0, 78,7 % на OSWorld‑Verified, 84,4 % на BrowseComp и 55,6 % на Toolathlon. [
5]
- Работа с production-кодом и SWE‑Bench-style задачи: Claude Opus 4.7 выглядит главным кандидатом в шорт-лист. Среди reported figures — 87,6 % на SWE‑Bench Verified и 64,3 % на SWE‑Bench Pro. [
17]
- Open-weights coding stack: Kimi K2.6 очень конкурентоспособен. В официальных материалах Kimi указаны 66,7 % на Terminal‑Bench 2.0, 58,6 % на SWE‑Bench Pro, 80,2 % на SWE‑Bench Verified и 89,6 на LiveCodeBench v6. [
29]
- Long-context open-source/open-weights эксперименты: DeepSeek V4 стоит тестировать, но обязательно смотреть на конкретный вариант. DeepSeek сообщил, что V4 Preview стал доступен и open-sourced 24 апреля 2026 года. [
42]
- Science reasoning: Claude Opus 4.7 reported на GPQA Diamond — 94,2 %; Kimi K2.6 показывает 90,5 % на GPQA-Diamond и 96,4 % на AIME 2026; в таблицах DeepSeek V4-Pro/Pro-Max указан GPQA Diamond 90,1. [
19][
27][
29][
37]
Перед таблицами: три важные оговорки
- Бенчмарк — это не универсальный IQ. Terminal‑Bench, SWE‑Bench, BrowseComp, OSWorld, GPQA и HLE измеряют разные навыки. Модель, сильная в кодинге, не обязана быть лучшей в web research, long-context retrieval или управлении компьютером через интерфейс. [
5][
17][
29]
- Инструменты и режим inference effort меняют результат. В system card OpenAI GPT‑5.5 Pro описан как тот же базовый model, но с настройкой, использующей parallel test-time compute. Поэтому результаты GPT‑5.5 и GPT‑5.5 Pro нельзя читать как тесты с одинаковым compute budget. [
3]
- Публичные лидерборды хороши для шорт-листа, а не для финальной закупки. Если модель будет работать в продукте, ее нужно прогонять на ваших данных, ваших инструментах, ваших timeouts и вашей шкале качества. [
12]
Снимок четырех моделей
| Модель | Как позиционируется | Самый сильный публичный сигнал | Что проверить перед выбором |
|---|---|---|---|
| GPT‑5.5 | OpenAI в launch-материалах делает акцент на computer use, tool use и агентные workflow. [ | Terminal‑Bench 2.0 — 82,7 %, OSWorld‑Verified — 78,7 %, BrowseComp — 84,4 %; у GPT‑5.5 Pro BrowseComp — 90,1 %. [ | Не смешивать обычный GPT‑5.5 и GPT‑5.5 Pro: Pro использует parallel test-time compute того же базового model. [ |
| Claude Opus 4.7 | Anthropic описывает его как hybrid reasoning model для coding и AI agents с context window 1M. [ | SWE‑Bench Verified — 87,6 %, SWE‑Bench Pro — 64,3 %. [ | Большое окно контекста и качество recall — не одно и то же; в summary StationX есть caveat по extreme 1M-token recall. [ |
| Kimi K2.6 | Moonshot/Kimi позиционирует модель как open-source/open-weights coding-oriented model. [ | Terminal‑Bench 2.0 — 66,7 %, SWE‑Bench Pro — 58,6 %, SWE‑Bench Verified — 80,2 %, LiveCodeBench v6 — 89,6. [ | По данным Artificial Analysis, Kimi K2.6 поддерживает native image/video input и max context length 256k; реальная производительность зависит от deployment setup. [ |
| DeepSeek V4-Pro / Pro-Max | В официальных документах DeepSeek V4 Preview назван live и open-sourced; Hugging Face card представляет V4 series как MoE language models. [ | В reported set указаны SWE Verified 80,6, SWE Pro 55,4, Terminal Bench 2.0 67,9 и GPQA Diamond 90,1. [ | Внутри названия DeepSeek V4 есть различия по variant, поэтому Flash, Pro и Pro-Max style results нужно читать отдельно. [ |
Head-to-head: что показывают бенчмарки
| Benchmark | GPT‑5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4-Pro / Pro-Max | Как читать |
|---|---|---|---|---|---|
| Terminal‑Bench 2.0 | 82,7 % [ | 69,4 % reported [ | 66,7 % [ | 67,9 % [ | Для command-line и autonomous coding style задач лидерство GPT‑5.5 выглядит самым явным. |
| SWE‑Bench Pro | 58,6 % [ | 64,3 % [ | 58,6 % [ | 55,4 % [ | На более жестком software-engineering benchmark впереди Claude Opus 4.7. |
| SWE‑Bench Verified | В этом source set нет clear comparable value | 87,6 % [ | 80,2 % [ | 80,6 % [ | В задачах на исправление issues в репозиториях самый сильный reported signal у Claude. |
| OSWorld‑Verified | 78,7 % [ | 78,0 % [ | 73,1 % [ | Comparable value не найден | В computer-use задачах GPT‑5.5 и Claude Opus 4.7 идут очень близко. |
| BrowseComp | 84,4 %; GPT‑5.5 Pro — 90,1 % [ | 79,3 % [ | 83,2 %; Agent Swarm — 86,3 % [ | Comparable value не найден | В browser-agent и web-research задачах сильны GPT‑5.5 Pro и Kimi Agent Swarm, но Pro нужно читать отдельно. |
| GPQA Diamond | В этом source set нет clear comparable official value | 94,2 % [ | 90,5 % [ | 90,1 % [ | В graduate-level science reasoning самый высокий reported score у Claude. |
| HLE / hard reasoning | Direct comparable value не найден | HLE no-tools — 46,9 %, with-tools — 54,7 % [ | HLE-Full — 34,7 %; with-tools — 54,0 % [ | HLE — 37,7 % [ | В tool-augmented HLE Claude и Kimi близки; listed HLE у DeepSeek ниже. |
| Long context | В предоставленном launch excerpt нет clear public context spec | 1M context window [ | 256k max context length [ | V4 materials дают long-context positioning [ | Для long-context deployment Claude и DeepSeek позиционированы яснее, но actual recall нужно тестировать отдельно. |
Какую модель выбрать по сценарию
1. Terminal-heavy автономные coding agents: GPT‑5.5
Если ваша система должна выполнять terminal actions, пользоваться браузером и инструментами, проходить OS-level tasks и выдерживать многошаговые agent loops, GPT‑5.5 в этом наборе данных выглядит самым сильным кандидатом. В reported numbers OpenAI указаны Terminal‑Bench 2.0 — 82,7 %, OSWorld‑Verified — 78,7 %, BrowseComp — 84,4 % и Toolathlon — 55,6 %. [5]
Но GPT‑5.5 Pro нельзя просто поставить в ту же строку, что обычный GPT‑5.5. Его BrowseComp score — 90,1 %, однако OpenAI system card описывает Pro как режим того же базового model с parallel test-time compute. [3][
5]
Лучше всего подходит для: coding agents, browser research agents, computer-use automation, tool-heavy enterprise assistants.
2. Ремонт production-кода и работа с репозиториями: Claude Opus 4.7
Если главный KPI — исправлять bugs в реальных репозиториях, готовить pull requests, проходить tests и понимать большую кодовую базу, Claude Opus 4.7 стоит поставить первым в шорт-лист. Его SWE‑Bench Verified 87,6 % и SWE‑Bench Pro 64,3 % дают самый сильный reported signal среди этих моделей по software-engineering benchmarks. [17]
Anthropic также позиционирует Claude Opus 4.7 как hybrid reasoning model для coding и AI agents с context window 1M, поэтому его логично тестировать в large-codebase workflows. [14]
Лучше всего подходит для: repo maintenance, code review, complex refactors, developer copilots, engineering agents.
3. Open-weights coding stack: Kimi K2.6
Если требование — self-hostable или open-weights model, Kimi K2.6 выглядит одним из самых сильных вариантов. В official Kimi table указаны Terminal‑Bench 2.0 — 66,7 %, SWE‑Bench Pro — 58,6 %, SWE‑Bench Verified — 80,2 %, SciCode — 52,2 % и LiveCodeBench v6 — 89,6. [29]
Публичные материалы Kimi также дают сильные сигналы для agentic/search-style workloads: BrowseComp — 83,2 %, Agent Swarm BrowseComp — 86,3 %. [34] По данным Artificial Analysis, модель поддерживает native image/video input и max context length 256k. [
32]
Лучше всего подходит для: open model deployments, coding agents, research agents, команд, которым нужен больший контроль над hosting.
4. Long-context open-source эксперименты: DeepSeek V4
DeepSeek сообщил, что V4 Preview стал live и open-sourced 24 апреля 2026 года. [42] Hugging Face card для DeepSeek-V4-Pro представляет V4 series как MoE language models. [
37]
В reported benchmark set для DeepSeek V4-Pro/Pro-Max указаны Terminal Bench 2.0 — 67,9, SWE Verified — 80,6, SWE Pro — 55,4 и GPQA Diamond — 90,1. [37] Это делает DeepSeek V4 стратегическим кандидатом для open-source/open-weights экспериментов и long-context workloads, но score нужно всегда читать вместе с точным variant. [
37][
42]
Лучше всего подходит для: long-context applications, open-source/open-weights experiments, команд, сравнивающих hosted frontier models с deployable alternatives.
5. Science и math reasoning: Claude лидирует на GPQA, но картина неоднозначна
В available reported numbers Claude Opus 4.7 достигает 94,2 % на GPQA Diamond. [19] Kimi K2.6 показывает GPQA-Diamond 90,5 % и AIME 2026 96,4 %. [
27][
29] DeepSeek V4-Pro/Pro-Max сообщает GPQA Diamond 90,1. [
37]
Это делает Claude сильным кандидатом для science reasoning, но для math/science workload нельзя принимать решение по одному бенчмарку. Setup, tool access и effort mode могут заметно менять результат. [12]
Практический чек-лист перед внедрением
- Не выбирайте модель по одному public benchmark. Сделайте внутренний eval на тех же prompts, одинаковом наборе tools, одинаковом timeout и одинаковой scoring rubric. [
12]
- Ведите GPT‑5.5 и GPT‑5.5 Pro отдельными треками. Pro использует parallel test-time compute, поэтому это не тот же inference budget. [
3]
- Сначала зафиксируйте требование к open-weights. Если data control, self-hosting или customization обязательны, Kimi K2.6 и DeepSeek V4 стоит вынести в отдельный evaluation lane. [
29][
34][
37][
42]
- Long context проверяйте не по размеру окна, а по качеству recall. У Claude Opus 4.7 явно заявлен 1M context, у Kimi K2.6 — 256k max context, а материалы DeepSeek V4 дают long-context positioning; все равно нужно проверять recall, instruction following и стоимость на ваших документах. [
14][
17][
32][
37][
42]
- Для coding agents запускайте public benchmark плюс внутренние репозитории. SWE‑Bench-style scores полезны, но в production есть dependency setup, flaky tests, code style и review constraints. [
17]
Ограничения сравнения
- В этом source set нет complete public comparison, где все четыре модели прогнаны одной независимой лабораторией, на одном harness, с одним tool access и одинаковым effort setting. LM Council также предупреждает о mismatch между independent и self-reported benchmark results. [
12]
- GPT‑5.5 Pro и GPT‑5.5 нельзя читать как одну и ту же конфигурацию: system card OpenAI описывает Pro как тот же базовый model с parallel test-time compute. [
3]
- DeepSeek V4 scores variant-specific: V4 Preview, V4-Pro и Pro-Max style naming нельзя склеивать в один общий score DeepSeek V4. [
37][
42]
- Для Kimi K2.6 и DeepSeek V4 в open-weights deployments фактическое качество могут менять serving stack, hardware, quantization и context settings; опубликованные benchmark numbers нужно дополнять собственным deployment eval. [
29][
34][
37]
Итог
GPT‑5.5 стоит брать в шорт-лист, если ваш workload — agentic computer-use, browsing, tool orchestration и terminal-heavy coding. [5]
Claude Opus 4.7 логично ставить первым, если ценность продукта — repo-level bug fixing, codebase repair и SWE‑Bench-style software engineering. [14][
17]
Kimi K2.6 нужно тестировать, если требуется open-weights coding model с сильными SWE‑Bench, Terminal‑Bench и agentic search сигналами. [29][
34]
DeepSeek V4-Pro/Pro-Max стоит включить в сравнение, если важны long-context open-source/open-weights эксперименты и deployability, но exact variant и benchmark setup нужно проверять отдельно. [37][
42]
Самая безопасная стратегия: использовать публичную benchmark table для шорт-листа, а финальную модель выбирать на ваших реальных tasks, latency, cost, privacy constraints и failure-mode tests. [12]




