Сравнивать GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4-Pro как обычную турнирную таблицу — плохая идея. Главная ловушка здесь в том, что цифры взяты из разных источников, с разными правами на инструменты, разными настройками reasoning effort и, местами, разными названиями одного и того же семейства тестов. Практичнее смотреть не на вопрос кто умнее вообще, а на задачу: для Terminal/CLI workflow первым кандидатом выглядит GPT-5.5; для SWE-Bench, визуальных задач и computer-use — Claude Opus 4.7; для knowledge/math и открытой модели — DeepSeek V4-Pro; для agentic multimodal workflow в Cloudflare Workers AI — Kimi K2.6.[27][
4][
1][
5][
64][
36]
Снимок бенчмарков: какие цифры можно цитировать
В таблицу ниже включены только числа, которые есть в предоставленных источниках. Прочерк означает не отсутствие способности, а отсутствие сопоставимой цитируемой цифры в этой подборке. Важно: это не единый leaderboard. Часть данных идёт из официальных страниц и карточек моделей, часть — из вторичных публикаций.
| Тест или задача | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4-Pro | Практический вывод |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82,7% [ | 69,4% [ | 66,7 [ | 67,9 [ | Среди доступных цифр GPT-5.5 заметно сильнее всего выглядит для command-line workflow. |
| SWE-Bench Pro | 58,6% [ | 64,3% [ | 58,6 [ | 55,4 [ | Claude лидирует по доступным числам, но показатель взят из вторичного обзора со ссылкой на AWS. |
| SWE-Bench Verified / Resolved | — | 87,6% [ | 80,2 [ | 80,6 [ | Claude выше, но для GPT-5.5 нет сопоставимой строки, а названия Verified/Resolved в источниках различаются. |
| Graphwalks 256k: BFS / parents | 73,7 / 90,1 [ | 76,9 / 93,6 [ | — | — | В таблице OpenAI по двум строкам 256k Claude Opus 4.7 выше GPT-5.5. |
| Graphwalks 1M: BFS / parents | 45,4 / 58,5 [ | — | — | — | Эти числа показывают длинный контекст GPT-5.5; сравнивать их с Opus 4.7 нельзя, потому что в 1M-строках у OpenAI указан Opus 4.6, а не 4.7.[ |
| Knowledge и math | — | — | — | GPQA Diamond 90,1; GSM8K 92,6; MMLU-Pro 87,5; HLE 37,7 [ | У DeepSeek V4-Pro самая полная карточка с открытыми knowledge/math показателями. |
| Vision, screenshot, computer use | — | vision-heavy gains; координаты 1:1 с пикселями; XBOW visual-acuity 98,5% [ | Cloudflare описывает модель как native multimodal agentic model, но без сопоставимого vision-бенчмарка [ | — | Самые жёсткие публичные доказательства по vision и UI-операциям сейчас у Claude Opus 4.7. |
Почему общий рейтинг был бы misleading
Во-первых, уровни источников разные. Цифры GPT-5.5 по Terminal-Bench 2.0 и SWE-Bench Pro опубликованы в медиа со ссылкой на benchmark results, предоставленные OpenAI; показатели Claude Opus 4.7 по SWE-Bench Pro, SWE-Bench Verified и Terminal-Bench 2.0 взяты из вторичного обзора, который ссылается на AWS; часть чисел Kimi K2.6 и DeepSeek V4-Pro находится в карточках моделей на Hugging Face.[27][
4][
84][
64]
Во-вторых, права на инструменты меняют картину. Mashable приводит пример HLE: без инструментов Claude Opus 4.7 набирает 46,9%, а GPT-5.4 Pro — 42,7%; с инструментами GPT-5.4 Pro выходит на 58,7%, а Claude Opus 4.7 — на 54,7%. Это не результат GPT-5.5, но хороший сигнал: with tools и without tools нельзя смешивать в одной таблице как будто это один и тот же тест.[6]
В-третьих, важны версия и режим вычислений. DeepSeek V4 выходит как V4-Pro и V4-Flash; Yahoo Finance передаёт заявление DeepSeek, что V4-Flash — более эффективный и экономичный вариант, тогда как подробные числа в этой статье относятся главным образом к DeepSeek-V4-Pro.[57][
64] Artificial Analysis отдельно рассматривает варианты GPT-5.5 по effort и пишет, что GPT-5.5 xhigh в их Index примерно на 20% дороже предшественника, но на 30% дешевле Claude Opus 4.7 max.[
24]
GPT-5.5: сильный кандидат для Terminal workflow и длинного контекста
Самое ясное преимущество GPT-5.5 в этой подборке — Terminal-Bench 2.0. Yahoo Finance / Investing.com сообщают, что по данным OpenAI модель набрала 82,7% в Terminal-Bench 2.0, тесте для command-line workflows; там же указано 58,6% в SWE-Bench Pro, который оценивает решение GitHub issues.[27]
У OpenAI есть и более детальная таблица по длинному контексту. В Graphwalks BFS GPT-5.5 получает 73,7 на 256k и 45,4 на 1M, а в Graphwalks parents — 90,1 на 256k и 58,5 на 1M. В той же таблице GPT-5.4 на Graphwalks BFS 1M имеет 9,4, тогда как GPT-5.5 — 45,4.[21]
Из сторонних оценок стоит отметить Artificial Analysis: издание называет GPT-5.5 новым leading AI model, пишет, что OpenAI лидирует в пяти headline evaluations и уступает Gemini 3.1 Pro Preview в трёх, а также указывает, что GPT-5.5 xhigh использует примерно на 40% меньше output tokens для их Index, чем предшественник.[24]
Когда тестировать первым: CLI automation, terminal agents, длинноконтекстный поиск и agentic coding workflow, где важны не только ответы, но и стоимость output tokens.[27][
21][
24]
Claude Opus 4.7: сильные coding-цифры и лучшая доказательная база по vision/computer-use
Официальная документация Anthropic наиболее прямо говорит о визуальных и UI-сценариях. В ней сказано, что изменение должно дать прирост в vision-heavy workloads, особенно для computer use, screenshot, artifact и document understanding workflows; координаты модели теперь соответствуют реальным пикселям 1:1, поэтому не нужен отдельный пересчёт scale factor.[1]
На launch page Anthropic приводит результат XBOW по visual-acuity benchmark: Claude Opus 4.7 — 98,5% против 54,5% у Opus 4.6.[5] Поэтому для screenshot understanding, document layout, desktop UI automation и computer-use agents у Claude Opus 4.7 сейчас более прямые публичные аргументы, чем у остальных трёх моделей.[
1][
5]
По coding-бенчмаркам вторичный обзор сообщает, что AWS указывает для Claude Opus 4.7 64,3% в SWE-Bench Pro, 87,6% в SWE-Bench Verified и 69,4% в Terminal-Bench 2.0.[4] Эти числа ставят Claude выше в доступном сравнении SWE-Bench Pro и Verified/Resolved, но перед production-выбором их всё равно стоит проверять на собственных репозиториях.
Есть и практическое предупреждение: Anthropic пишет, что high-res images используют больше tokens; если повышенная детализация не нужна, изображения лучше уменьшать перед отправкой в Claude, чтобы не раздувать token usage.[1]
Когда тестировать первым: исправление GitHub issues, coding agents, анализ скриншотов и документов, computer-use agents и задачи, где важны точные пиксельные координаты UI.[1][
4][
5]
Kimi K2.6: кандидат для agentic multimodal workflow в Workers AI
Cloudflare сообщает, что Moonshot AI Kimi K2.6 доступна в Workers AI с 20 апреля 2026 года, model ID — @cf/moonshotai/kimi-k2.6; Cloudflare называет это Day 0 support в партнёрстве с Moonshot AI.[36]
В том же changelog Kimi K2.6 описывается как native multimodal agentic model для long-horizon coding, coding-driven design, proactive autonomous execution и swarm-based task orchestration. Cloudflare также указывает архитектуру Mixture-of-Experts: 1T total parameters и 32B active parameters per token.[36]
По публичным числам карточка Kimi K2.6 на Hugging Face даёт Terminal-Bench 2.0 — 66,7, SWE-Bench Pro — 58,6 и SWE-Bench Multilingual — 76,7.[84] MarkTechPost отдельно пишет о 80,2 на SWE-Bench Verified.[
45]
Когда тестировать первым: если инфраструктура уже завязана на Cloudflare Workers AI или нужны long-horizon coding, coding-driven design, multimodal agent workflow и orchestration нескольких агентов.[36][
84]
DeepSeek V4-Pro: самая полная карточка по knowledge/math и понятная открытая стратегия
В источниках DeepSeek V4 фигурирует в двух вариантах: V4-Pro и V4-Flash. Yahoo Finance передаёт заявление DeepSeek, что V4-Pro заметно опережает другие open-source models на world knowledge benchmarks и лишь немного уступает топовой закрытой Gemini-Pro-3.1; V4-Flash описан как более эффективный и экономичный вариант.[57]
Карточка DeepSeek-V4-Pro на Hugging Face даёт наиболее полную подборку чисел в этой статье: GPQA Diamond — 90,1, GSM8K — 92,6, HLE — 37,7, MMLU-Pro — 87,5, SWE-Bench Pro — 55,4, SWE-Bench Verified/Resolved — 80,6, TerminalBench 2.0 — 67,9.[64]
CNBC пишет, что DeepSeek V4 оптимизирован для agent tools вроде Claude Code и OpenClaw; аналитик Counterpoint Wei Sun считает, что benchmark profile V4 указывает на возможность получить сильные agent capabilities при существенно более низкой стоимости.[58]
Когда тестировать первым: если важны open-source route, knowledge/math benchmarks, стоимость agent tooling или возможность оценивать скачиваемую модель в локальной либо self-hosted среде.[58][
64]
Выбор по задаче: короткий шорт-лист
- Terminal automation и command-line agents: сначала тестируйте GPT-5.5. В доступных данных Terminal-Bench 2.0 у GPT-5.5 — 82,7%, выше Claude Opus 4.7 с 69,4%, DeepSeek V4-Pro с 67,9 и Kimi K2.6 с 66,7.[
27][
4][
64][
84]
- Software engineering repair и задачи в стиле SWE-Bench Pro: начните с Claude Opus 4.7, но обязательно прогоните свои репозитории. В доступных цифрах Claude Opus 4.7 получает 64,3%, GPT-5.5 и Kimi K2.6 — по 58,6, DeepSeek V4-Pro — 55,4; при этом число Claude взято из менее прямого источника.[
4][
27][
84][
64]
- Screenshot, document understanding и computer use: приоритет у Claude Opus 4.7. У Anthropic есть прямые утверждения про vision-heavy workflows, computer use и координаты 1:1, плюс приведённый результат XBOW 98,5% на visual-acuity benchmark.[
1][
5]
- Knowledge/math и открытая модельная линия: добавьте DeepSeek V4-Pro в шорт-лист. Его карточка Hugging Face одновременно содержит GPQA Diamond, GSM8K, HLE, MMLU-Pro, SWE-Bench и TerminalBench 2.0.[
64]
- Multimodal agentic workflow в Workers AI: Kimi K2.6 стоит протестировать. Cloudflare уже даёт Day 0 support в Workers AI и позиционирует модель для long-horizon coding и swarm-based task orchestration.[
36]
Перед внедрением: прогоните всё в одинаковых условиях
Чтобы вывод можно было защищать внутри команды, сравнение нужно повторять на одной версии модели или одном API model ID, с одинаковой длиной контекста, одинаковыми правами на инструменты, одинаковым reasoning effort, temperature, token budget и scoring harness. Особенно нельзя смешивать режимы с инструментами и без инструментов: пример HLE показывает, что это может менять относительный порядок моделей.[6]
Стоимость тоже нужно измерять вместе с качеством. Artificial Analysis пишет, что GPT-5.5 xhigh примерно на 20% дороже предшественника в их Index, но на 30% дешевле Claude Opus 4.7 max, а output tokens у GPT-5.5 xhigh примерно на 40% меньше, чем у предшественника.[24] Anthropic, в свою очередь, предупреждает, что high-resolution images увеличивают token usage.[
1] Для production-агента скорость, расход токенов, успешность tool calls и доля исправленных ошибок часто важны не меньше, чем один красивый benchmark score.
Итог
Сейчас самый честный вывод — не общий победитель, а карта выбора. Для Terminal-Bench и CLI-сценариев первым кандидатом выглядит GPT-5.5; для SWE-Bench, vision и computer-use — Claude Opus 4.7; для knowledge/math и открытого развертывания — DeepSeek V4-Pro; для multimodal agentic coding в Cloudflare Workers AI — Kimi K2.6.[27][
4][
1][
5][
64][
36] Настоящий общий рейтинг появится только тогда, когда все четыре модели будут прогнаны в одном harness, с одинаковыми tool permissions, версиями и настройками effort.




