Если смотреть не на громкость релиза, а на практическую работу, лидера на все случаи нет. Из доступных данных складываются четыре разных профиля: Claude Opus 4.7 — когда качество важнее цены; GPT-5.5 — когда нужны терминальные и агентные сценарии в экосистеме OpenAI; Kimi K2.6 — когда нужен сильный кодинг за меньшие деньги; DeepSeek V4 — когда много API-вызовов и нужен длинный контекст [3][
4][
7][
16].
Но читать таблицы нужно осторожно. В одних сравнениях модели работают с инструментами, в других — без них; где-то включены режимы high effort, max effort или thinking, а где-то сравниваются разные варианты одной линейки [3][
6][
14][
16].
Короткий вердикт
| Если главное — | Что пробовать первым | Главный сигнал |
|---|---|---|
| Максимальное качество на сложных задачах | Claude Opus 4.7 | В сопоставимых данных VentureBeat Claude лидирует на HLE среди GPT-5.5 и DeepSeek V4, а CodeRouter ставит его первым на SWE-Bench Pro с 64,3% [ |
| Терминал, агенты и привычная среда OpenAI | GPT-5.5 | VentureBeat указывает 82,7% на Terminal-Bench 2.0 — выше Claude Opus 4.7 и DeepSeek V4; практическая рекомендация также связывает его со сценариями ChatGPT/Codex [ |
| Конкурентный кодинг при низкой цене | Kimi K2.6 | CodeRouter даёт Kimi K2.6 58,6% на SWE-Bench Pro, то есть на уровне GPT-5.5, при цене $0,60/$4,00 за 1 млн токенов ввода/вывода [ |
| Большой объём вызовов и длинный контекст | DeepSeek V4-Pro или V4 Flash | V4-Pro указан по $1,74/$3,48 за 1 млн токенов и с контекстом 1 млн; V4 Flash — по $0,14/$0,28 и тоже с контекстом 1 млн, но это другой вариант модели [ |
| Запуск на своей инфраструктуре | Kimi K2.6 | Verdent пишет, что веса K2.6 доступны на Hugging Face и запускаются через vLLM, SGLang или KTransformers [ |
Что показывают бенчмарки
Humanity’s Last Exam, или HLE, — мультимодальный академический тест из 2 500 вопросов по математике, гуманитарным и естественным наукам; он рассчитан на проверяемые ответы и задачи на границе возможностей LLM [15]. SWE-Bench Pro оценивает инженерные навыки на многоязычных задачах из реальных issues GitHub, как это описано в сравнении DocsBot [
18]. Terminal-Bench 2.0 в данных VentureBeat фигурирует среди агентных и software-engineering результатов [
3].
| Бенчмарк | Как читать результат | Доступные цифры |
|---|---|---|
| HLE без инструментов | Claude Opus 4.7 лидирует среди трёх моделей, присутствующих в сопоставимой таблице VentureBeat. | Claude Opus 4.7 — 46,9%; GPT-5.5 — 41,4%; DeepSeek V4 — 37,7%. Kimi K2.6 в этом же сопоставимом фрагменте не указан [ |
| HLE с инструментами | Claude остаётся впереди GPT-5.5 и DeepSeek в таблице VentureBeat; Kimi имеет сильную отдельную цифру, но из другой таблицы. | VentureBeat: Claude Opus 4.7 — 54,7%; GPT-5.5 — 52,2%; DeepSeek V4 — 48,2%. CodeRouter отдельно указывает Kimi K2.6 с 54,0 на HLE с инструментами, но это не та же самая таблица [ |
| SWE-Bench Pro | Claude — лидер; GPT-5.5 и Kimi K2.6 образуют второй эшелон; DeepSeek близко, но ниже. | CodeRouter: Claude Opus 4.7 — 64,3%; GPT-5.5 и Kimi K2.6 — 58,6%; DeepSeek V4-Pro — около 55%. VentureBeat приводит 55,4% для DeepSeek [ |
| Terminal-Bench 2.0 | Это самый сильный аргумент в пользу GPT-5.5 среди сопоставимых цифр. | GPT-5.5 — 82,7%; Claude Opus 4.7 — 69,4%; DeepSeek V4 — 67,9%. Для Kimi K2.6 в доступном фрагменте такой цифры нет [ |
Практический вывод такой: Claude Opus 4.7 даёт лучшую общую заявку на качество в сопоставимых данных, GPT-5.5 заметно выделяется в Terminal-Bench 2.0, Kimi K2.6 интересен соотношением результата и цены в кодинге, а DeepSeek V4 сильнее всего выглядит там, где важны стоимость и длинный контекст [3][
4][
16].
Цена и контекст: счета выставляют не бенчмарки
В агентных сценариях один пользовательский запрос может запускать много обращений к модели. Поэтому разница в цене за токены иногда важнее, чем несколько пунктов в лидерборде. Доступные источники ставят Kimi K2.6 и DeepSeek V4 в более агрессивную ценовую зону, а GPT-5.5 и Claude Opus 4.7 — ближе к премиальному сегменту [4][
16][
19].
| Модель или вариант | Цена из источников | Контекст | Комментарий |
|---|---|---|---|
| Claude Opus 4.7 | $5 за ввод / $25 за вывод на 1 млн токенов в Artificial Analysis [ | 1 млн токенов; максимум вывода — 128 тыс. токенов [ | Artificial Analysis называет модель одной из ведущих по интеллекту, но дорогой, более медленной средней и многословной [ |
| GPT-5.5 | $5 за ввод / $30 за вывод на 1 млн токенов в CodeRouter [ | 1 млн токенов [ | Особенно логичен, если команда уже работает в ChatGPT/Codex или если важен сильный результат Terminal-Bench [ |
| Kimi K2.6 | $0,60 за ввод / $4,00 за вывод на 1 млн токенов в CodeRouter [ | 256 тыс. токенов [ | Artificial Analysis также показывает 256 тыс. токенов контекста у Kimi против 1000 тыс. у Claude Opus 4.7 в прямом сравнении [ |
| DeepSeek V4-Pro | $1,74 за ввод / $3,48 за вывод на 1 млн токенов в CodeRouter [ | 1 млн токенов [ | Привлекателен для большого объёма и длинного контекста, хотя в доступных данных не лидирует на HLE и SWE-Bench Pro [ |
| DeepSeek V4 Flash | $0,14 за ввод / $0,28 за вывод на 1 млн токенов в CodeRouter [ | 1 млн токенов [ | Это отдельный вариант: не стоит автоматически переносить на Flash результаты V4-Pro или V4-Pro-Max [ |
По Claude есть важное расхождение: отдельная карточка Artificial Analysis указывает $5/$25 и контекст 1 млн токенов, тогда как таблица CodeRouter, использованная для сравнения с Kimi, приводит для Claude другие значения [16][
19]. Для продакшн-бюджета лучше всегда проверять актуальный прайс и условия именно вашего провайдера.
Как выбрать под задачу
Claude Opus 4.7 — если ошибка дорого стоит
Claude Opus 4.7 — разумная первая проверка для сложного ревью кода, длинного анализа и задач, где обнаружение скрытых дефектов важнее экономии на токенах. За него говорят преимущество на HLE перед GPT-5.5 и DeepSeek V4, лидерство на SWE-Bench Pro по данным CodeRouter и оценка Artificial Analysis, где модель входит в число лидеров по интеллекту, хотя отмечены высокая стоимость, задержки и многословность [3][
14][
16]. Также Artificial Analysis указывает для Opus 4.7 контекст 1 млн токенов и доступность через Anthropic API, Amazon Bedrock, Microsoft Azure и Google Vertex [
19].
GPT-5.5 — если работа завязана на OpenAI и терминал
GPT-5.5 не обходит Claude Opus 4.7 на HLE в данных VentureBeat, зато имеет лучший доступный результат на Terminal-Bench 2.0: 82,7% против 69,4% у Claude Opus 4.7 и 67,9% у DeepSeek V4 [3]. Если команда уже работает в ChatGPT или Codex, практическое руководство рассматривает GPT-5.5 как естественный маршрут для проверки перед полной миграцией на другого поставщика [
7].
Kimi K2.6 — если нужен сильный кодинг дешевле
Kimi K2.6 — самый понятный случай цена/качество в доступных источниках: CodeRouter ставит его вровень с GPT-5.5 на SWE-Bench Pro с 58,6% и указывает цену $0,60/$4,00 за 1 млн токенов [16]. Окно в 256 тыс. токенов меньше, чем 1 млн у GPT-5.5 и DeepSeek V4-Pro в той же таблице, но его может хватить, если ваш кодовый контекст помещается в эту рамку [
16]. Если нужен запуск на своей инфраструктуре, Verdent пишет, что веса K2.6 есть на Hugging Face и работают через vLLM, SGLang или KTransformers; минимально жизнеспособная конфигурация для INT4-варианта при уменьшенном контексте — 4× H100 [
5].
DeepSeek V4 — если узкое место в бюджете и длине контекста
DeepSeek V4 Pro/Pro-Max уступает Claude Opus 4.7 и GPT-5.5 на HLE, Terminal-Bench 2.0 и SWE-Bench Pro в цифрах VentureBeat, но сочетание цены и контекста 1 млн токенов делает его конкурентным для высокообъёмных пайплайнов [3][
16]. Если цель — минимальная стоимость вызовов, V4 Flash выглядит ещё дешевле в CodeRouter, однако его нужно рассматривать как отдельный вариант, а не как прямую замену V4-Pro [
4][
16].
Перед миграцией: четыре оговорки
- Цифры не всегда сравнивают одну и ту же конфигурацию. HLE встречается с инструментами и без них, а другие источники используют режимы high effort, max effort или thinking [
3][
6][
14][
16].
- Варианты моделей нельзя смешивать. GPT-5.5 — не то же самое, что GPT-5.5 Pro; DeepSeek V4-Pro, V4-Pro-Max и V4 Flash тоже не стоит считать одной моделью [
3][
4][
16].
- Цены и лидерборды быстро устаревают. Verdent прямо предупреждает, что такие числа могут быстро потерять актуальность на фоне непрерывных релизов [
5].
- Решает ваш реальный сценарий. Практическая рекомендация — прогнать одну и ту же задачу на кандидатах перед сменой маршрута, а не выбирать модель только по самому громкому запуску недели [
7].
Итог
Если нужна максимальная надёжность на сложных задачах, первым стоит проверять Claude Opus 4.7. Если важны терминал, агентные цепочки и совместимость с рабочими привычками OpenAI — GPT-5.5. Если нужен конкурентный кодинг при заметно меньшей цене — Kimi K2.6. Если главный ограничитель — много дешёвых вызовов и длинный контекст, имеет смысл валидировать DeepSeek V4-Pro или V4 Flash, помня, что они не лидируют в самых жёстких доступных бенчмарках [3][
4][
7][
16][
19].




