Если смотреть только на опубликованные бенчмарки, свести GPT-5.5, Claude Opus 4.7, DeepSeek V4 и Kimi K2.6 к простой турнирной таблице не получится. GPT-5.5 и Claude Opus 4.7 чаще встречаются в одних и тех же публичных сравнениях, у Kimi K2.6 часть цифр идёт из модельной карты и отдельного тестового стенда, а для DeepSeek V4 в доступных источниках не хватает прямых значений по ключевым coding-бенчмаркам [1][
2][
5][
6].
Практический вывод проще: выбирать стоит не «самую умную модель вообще», а первую модель для проверки под конкретную задачу — терминал, GitHub-issues, веб-поиск, длинный мультимодальный ввод или массовые API-вызовы.
Коротко: кого тестировать первым
- Терминальные coding-агенты — GPT-5.5. OpenAI заявляет 82,7 % в Terminal-Bench 2.0; в публичных сравнениях Claude Opus 4.7 указан с 69,4 %, а Kimi K2.6 — с 66,7 % [
19][
8][
13][
6].
- Ремонт кода и реальные GitHub-issues — Claude Opus 4.7. Для него опубликованы 64,3 % в SWE-Bench Pro и 87,6 % в SWE-Bench Verified; показатель GPT-5.5 в SWE-Bench Pro — 58,6 % [
27][
19].
- Браузинг и веб-поиск — GPT-5.5. В BrowseComp для GPT-5.5 указано 84,4 %, для Claude Opus 4.7 — 79,3 % [
8][
13].
- Длинный мультимодальный контекст — Kimi K2.6. Модель описывается как поддерживающая текст, изображения, видео и 256k-контекстный маршрут [
7].
- Дешёвые массовые вызовы API — DeepSeek V4. Mashable приводит цены $1,74 за 1 млн входных и $3,48 за 1 млн выходных токенов против $5/$30 у GPT-5.5 и $5/$25 у Claude Opus 4.7; но отчёты о высоком hallucination rate нужно учитывать заранее [
3][
2].
Сводная таблица бенчмарков
— означает не ноль и не провал модели, а отсутствие в предоставленных публичных источниках напрямую сопоставимого значения для этой строки.
| Бенчмарк | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4 | Как читать |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82,7 % [ | 69,4 % [ | 66,7 % [ | — | Для долгих shell- и CLI-сценариев публичный лидер — GPT-5.5. |
| SWE-Bench Pro | 58,6 % [ | 64,3 % [ | 58,6 % [ | — | В задачах ремонта кода и GitHub-issues впереди Claude Opus 4.7. |
| SWE-Bench Verified | — | 87,6 % [ | 80,2 % [ | — | По доступным данным здесь сравнимы прежде всего Claude и Kimi. |
| GPQA Diamond | 93,6 % [ | 94,2 % [ | — | — | Разрыв между GPT-5.5 и Claude Opus 4.7 минимален, но опубликованное значение Claude чуть выше. |
| HLE with tools | 52,2 % [ | 54,7 % [ | 54,0 % [ | — | Claude и Kimi выглядят сильнее, но для Kimi стоит отдельно проверять условия оценки [ |
| BrowseComp | 84,4 % [ | 79,3 % [ | — | — | В браузинг- и web-search-подобных задачах публичное значение выше у GPT-5.5. |
| OSWorld-Verified | 78,7 % [ | 78,0 % [ | — | — | Разница между GPT-5.5 и Claude Opus 4.7 почти несущественная. |
| MCP Atlas | 75,3 % [ | 79,1 % [ | — | — | В MCP- и tool-интеграциях опубликованное значение выше у Claude Opus 4.7. |
GPT-5.5: сильный кандидат для терминальных агентов
OpenAI описывает Terminal-Bench 2.0 как проверку сложных workflows в командной строке, где нужны планирование, итерации и координация инструментов; в этом тесте GPT-5.5 набирает 82,7 % [19]. В SWE-Bench Pro, который оценивает решение реальных GitHub-issues, OpenAI указывает для GPT-5.5 58,6 % [
19].
Из этого следует понятный сценарий применения: GPT-5.5 стоит первым запускать там, где модель должна долго работать в терминале — воспроизводить CI-ошибки, выполнять shell-команды, менять файлы, запускать тесты и исправлять результат по итерациям. Но это не значит, что GPT-5.5 автоматически лучший кодер во всех режимах: в SWE-Bench Pro Claude Opus 4.7 показывает 64,3 %, то есть выше, чем 58,6 % у GPT-5.5 [27][
19].
Claude Opus 4.7: сильнее в код-ремонте и проверочных задачах
Claude Opus 4.7 особенно заметен в SWE-Bench-линейке: 64,3 % в SWE-Bench Pro и 87,6 % в SWE-Bench Verified [27]. DataCamp также отмечает, что Opus 4.7 оценивали на 14 бенчмарках, охватывающих coding, reasoning, tool use, computer use и visual reasoning [
27].
В прямых публичных сравнениях с GPT-5.5 Claude Opus 4.7 чуть впереди в GPQA Diamond — 94,2 % против 93,6 % — и заметно впереди в MCP Atlas — 79,1 % против 75,3 % [8][
13]. Зато в Terminal-Bench 2.0 и BrowseComp опубликованные значения выше у GPT-5.5 [
8][
13][
19]. Поэтому более точная формулировка такая: Claude Opus 4.7 — сильный первый кандидат для ремонта кода, ревизии решений и tool-heavy workflows, но не безусловный победитель во всех агентных сценариях.
Kimi K2.6: интересен длинным мультимодальным вводом, но цифры надо сверять
Для Kimi K2.6 опубликованы 58,6 % в SWE-Bench Pro и 80,2 % в SWE-Bench Verified; отдельный обзор также приводит 66,7 % в Terminal-Bench 2.0 и 54,0 % в HLE with tools [1][
6]. Важно, что источник по Kimi связывает эти числа с официальной модельной картой Moonshot AI и отдельно помечает SWE-Bench Pro как Moonshot in-house harness [
6].
Поэтому одинаковые 58,6 % у Kimi K2.6 и GPT-5.5 в SWE-Bench Pro не стоит автоматически читать как идеальную ничью в одном и том же эксперименте [1][
6][
19]. Зато у Kimi есть другой явный повод попасть в шорт-лист: модель описывается как поддерживающая текст, изображения, видео и 256k-контекстный маршрут [
7]. Если продукт работает с длинными документами, скриншотами, видеофрагментами или смешанным контентом, Kimi K2.6 стоит проверять отдельно.
DeepSeek V4: сильный ценовой аргумент, но нужен контроль качества
В строках Terminal-Bench, SWE-Bench Pro, SWE-Bench Verified и GPQA Diamond для DeepSeek V4 в этой подборке остаётся пробел: предоставленные источники не дают достаточно прямых, сопоставимых значений по тем же бенчмаркам [2][
5]. Зато есть другие сигналы. Artificial Analysis сообщает, что DeepSeek V4 Pro Max получил −10 в AA-Omniscience, улучшившись на 11 пунктов относительно V3.2, а V4 Flash Max получил −23 [
2]. Тот же источник указывает очень высокий hallucination rate: 94 % для V4 Pro и 96 % для V4 Flash, то есть модель, по этой оценке, почти всегда отвечает даже тогда, когда не знает ответа [
2].
Архитектурно DeepSeek V4 тоже заслуживает внимания. DataCamp описывает его как Mixture of Experts: Pro-модель имеет 1,6 трлн параметров всего и 49 млрд активных, Flash-модель — 284 млрд всего и 13 млрд активных [4]. По цене DeepSeek V4 выглядит особенно агрессивно: Mashable приводит $1,74 за 1 млн входных и $3,48 за 1 млн выходных токенов, тогда как GPT-5.5 указан с $5/$30, а Claude Opus 4.7 — с $5/$25 за 1 млн токенов [
3].
Вывод: DeepSeek V4 может быть разумным кандидатом для массовых, чувствительных к цене задач, особенно если ответы можно проверять автоматически или пропускать через постобработку. Для критичных продуктов — юридических, финансовых, медицинских, инженерных — его стоит оценивать только с собственным набором тестов, фильтрами ошибок и явной стратегией обнаружения галлюцинаций [2][
3][
4].
Практический выбор по сценариям
| Сценарий | С чего начать | Почему |
|---|---|---|
| Долгие terminal-сессии, shell-агенты, CI-воспроизведение | GPT-5.5 | В Terminal-Bench 2.0 указано 82,7 % у GPT-5.5, 69,4 % у Claude Opus 4.7 и 66,7 % у Kimi K2.6 [ |
| Реальные GitHub-issues, исправление багов, SWE-Bench-подобные задачи | Claude Opus 4.7 | Claude Opus 4.7 показывает 64,3 % в SWE-Bench Pro и 87,6 % в SWE-Bench Verified [ |
| Браузинг, веб-поиск, сбор информации из сети | GPT-5.5 | В BrowseComp у GPT-5.5 84,4 %, у Claude Opus 4.7 79,3 % [ |
| MCP- и tool-интеграции | Claude Opus 4.7 | В MCP Atlas опубликовано 79,1 % для Claude Opus 4.7 и 75,3 % для GPT-5.5 [ |
| Длинный мультимодальный контекст | Kimi K2.6 | Kimi K2.6 описывается как модель с поддержкой текста, изображений, видео и 256k-контекстного маршрута [ |
| Большой объём API-вызовов при жёстком бюджете | DeepSeek V4 | Цена DeepSeek V4 ниже, чем у GPT-5.5 и Claude Opus 4.7 в сравнении Mashable, но высокий hallucination rate из отчёта Artificial Analysis требует отдельной проверки [ |
Почему общего победителя пока лучше не объявлять
Во-первых, нет достаточного набора независимых тестов, где все четыре модели прогоняются с одинаковыми промптами, одинаковым доступом к инструментам, одинаковым reasoning budget и одним и тем же оценщиком. Даже сравнение GPT-5.5 и Claude Opus 4.7, где общих данных больше, один обзор описывает как сопоставимое по форме, но не по методологии: Claude ведёт в 6 из 10 общих бенчмарков, GPT-5.5 — в 4, а лидерство распределяется по категориям [5].
Во-вторых, одинаковое название бенчмарка не гарантирует одинаковую процедуру. Anthropic, например, уточняет, что для Terminal-Bench 2.0 использовался Terminus-2 harness с отключённым thinking и заданными ресурсными условиями [31]. Для Kimi K2.6, как уже отмечалось, часть чисел идёт из модельной карты и in-house harness [
6].
В-третьих, бенчмарк — это снимок, а не готовый SLA для продукта. В реальной интеграции важны не только проценты: нужны latency, стоимость, стабильность tool-calls, воспроизводимость логов, политика безопасности, способ отказа и частота уверенных неправильных ответов. ExplainX прямо предупреждает, что определения лидербордов, промпты и политики инструментов могут двигать оценки, поэтому такие таблицы не заменяют собственный eval harness [28].
Итог
Если нужен короткий рабочий шорт-лист, он выглядит так: GPT-5.5 — для терминальных агентных coding-задач, Claude Opus 4.7 — для ремонта кода и SWE-Bench-подобных workflows, Kimi K2.6 — для длинного мультимодального контекста, DeepSeek V4 — для дешёвых массовых вызовов с обязательной проверкой качества [19][
27][
7][
3].
Но «лучшей модели вообще» по этим данным нет. Публичные цифры зависят от промптов, инструментов, reasoning-настроек и тестового стенда, поэтому перед внедрением всё равно нужен собственный набор задач, максимально похожий на ваш продукт [5][
28][
31].




