Сравнивать эти четыре модели «в лоб» стоит осторожно. По GPT-5.5 есть официальные цифры OpenAI для Terminal-Bench 2.0 и SWE-Bench Pro [24]. По DeepSeek V4 официальный changelog в первую очередь подтверждает, что V4-Pro и V4-Flash доступны через API [
25]. А самые полезные прямые сравнения Claude Opus 4.7 и Kimi K2.6 в имеющемся наборе источников в основном приходят из сторонних обзоров, а не из единой официальной таблицы всех четырёх моделей [
4][
6].
Короткий вывод: какую модель смотреть первой
- Если главный сценарий — исправление кода и GitHub-issues, Claude Opus 4.7 выглядит сильнее по приведённым значениям SWE-Bench, SWE-Bench Verified и CursorBench [
4].
- Если нужны терминальные агенты, shell-команды и tool orchestration, у GPT-5.5 самая чёткая публичная опора: OpenAI заявляет 82,7% на Terminal-Bench 2.0 [
24].
- Если важна цена массовых coding-agent запусков, Kimi K2.6 стоит включить в пилот: CodeRouter называет его cost/quality winner с $0,60 за миллион входных и $4,00 за миллион выходных токенов [
6].
- Если рассматриваете DeepSeek V4, проверяйте его на собственных задачах: V4-Pro и V4-Flash официально доступны в DeepSeek API, но официальной матрицы бенчмарков против Kimi K2.6, Claude Opus 4.7 и GPT-5.5 в использованных источниках нет [
25].
Что действительно подтверждают источники
OpenAI описывает Terminal-Bench 2.0 как тест сложных командных workflows, где модели нужны планирование, итерации и координация инструментов; GPT-5.5 набирает там 82,7% [24]. На SWE-Bench Pro, который проверяет решение реальных GitHub-issues, OpenAI указывает для GPT-5.5 результат 58,6% [
24].
DeepSeek в changelog сообщает, что V4-Pro и V4-Flash доступны через интерфейс OpenAI ChatCompletions и через Anthropic-интерфейс; параметры моделей — deepseek-v4-pro и deepseek-v4-flash [25]. Это важное подтверждение доступности, но не доказательство победы в конкретном бенчмарке.
По Claude Opus 4.7 и Kimi K2.6 прямые сравнения нужно читать как вторичные данные: LushBinary приводит таблицу Claude против GPT-5.5, а CodeRouter — ценовые и качественные ориентиры по Kimi K2.6 и DeepSeek V4 [4][
6].
Таблица: где есть цифры, а где пока пробелы
«н/д» означает, что в использованных источниках нет достаточно надёжной и напрямую сопоставимой цифры для этой пары модель-бенчмарк.
| Бенчмарк / критерий | DeepSeek V4 | Kimi K2.6 | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|---|
| SWE-Bench Pro | н/д | по CodeRouter — на уровне GPT-5.5 [ | 64,3% [ | 58,6% [ |
| SWE-Bench Verified | н/д | н/д | 87,6% [ | около 85% [ |
| Terminal-Bench 2.0 | н/д | н/д | около 72% [ | 82,7% [ |
| GDPval / Knowledge Work | н/д | н/д | около 78% [ | 84,9% [ |
| OSWorld-Verified / Computer Use | н/д | н/д | около 65% [ | 78,7% [ |
| GPQA Diamond | н/д | н/д | 94,2% [ | около 93% [ |
| CursorBench | н/д | н/д | 70% [ | около 65% [ |
| Tau2-bench Telecom | н/д | н/д | около 90% [ | 98,0% [ |
| Vision & Document Arena | н/д | н/д | 1-е место по Arena-отчёту [ | н/д |
| Цена / контекст | V4 Flash: $0,14 input и $0,28 output за млн токенов, контекст 1M [ | $0,60 input и $4,00 output за млн токенов [ | н/д | н/д |
Кодинг: Claude Opus 4.7 выглядит сильнее, Kimi K2.6 — дешевле для экспериментов
Если смотреть именно на coding-задачи, самый сильный сигнал в этой подборке — у Claude Opus 4.7. LushBinary указывает 64,3% для Claude Opus 4.7 на SWE-Bench Pro против 58,6% у GPT-5.5; значение GPT-5.5 в 58,6% также подтверждено публикацией OpenAI [4][
24]. В SWE-Bench Verified и CursorBench Claude Opus 4.7 в той же сторонней таблице тоже выше GPT-5.5 [
4].
Kimi K2.6 интересен не тем, что по нему есть полная независимая матрица на все бенчмарки, а ценой. CodeRouter ставит его на уровень GPT-5.5 по SWE-Bench Pro и одновременно называет заметно более дешёвым вариантом по токенам [6]. Для команд, которые запускают много попыток, drafts и retries, это может быть важнее небольшой разницы в лидерборде — но только после собственного eval.
По DeepSeek V4 из официальных данных в этой подборке нельзя вывести coding-результат. Надёжно подтверждено другое: V4-Pro и V4-Flash доступны через DeepSeek API [25].
Терминальные и агентные workflows: у GPT-5.5 лучшая публичная опора
Для terminal-agent сценариев GPT-5.5 выглядит наиболее убедительно именно потому, что есть официальная цифра OpenAI: 82,7% на Terminal-Bench 2.0 [24]. В стороннем сравнении LushBinary Claude Opus 4.7 в том же бенчмарке указан примерно на уровне 72% [
4].
Похожая картина в knowledge-work и computer-use метриках из этой же сторонней таблицы: GPT-5.5 получает 84,9% на GDPval против примерно 78% у Claude Opus 4.7, а также 78,7% на OSWorld-Verified против примерно 65% у Claude Opus 4.7 [4]. Поэтому для задач, где модель должна работать с shell-командами, инструментами, браузерными или GUI-подобными действиями, GPT-5.5 — самый понятный стартовый кандидат.
Vision и документы: самый явный плюс — у Claude Opus 4.7
Полной таблицы по мультимодальным задачам для всех четырёх моделей в источниках нет. Самый заметный положительный сигнал касается Claude Opus 4.7: в отчёте Arena, который цитирует Latent Space/AINews, Claude Opus 4.7 занимает 1-е место в Vision & Document Arena [1].
LLM Stats также пишет, что Claude Opus 4.7 может обрабатывать изображения до 2 576 пикселей по длинной стороне, то есть примерно до 3,75 мегапикселя; GPT-5.5 поддерживает ввод изображений и там указан с результатами MMMU-Pro 81,2% без инструментов и 83,2% с инструментами [5]. Эти данные помогают понять расстановку сил между Claude и GPT-5.5, но не заменяют прямого сравнения всех четырёх моделей.
Цена и практическая экономика: Kimi K2.6 и DeepSeek V4 Flash надо прогонять на своих задачах
Главный ценовой аргумент в этой подборке — у Kimi K2.6. CodeRouter описывает модель как победителя по соотношению стоимости и качества и приводит цены $0,60 за миллион входных токенов и $4,00 за миллион выходных токенов [6].
DeepSeek V4 Flash в том же источнике выглядит как очень дешёвый рабочий вариант: $0,14 за миллион входных токенов, $0,28 за миллион выходных токенов и контекст 1M [6]. Официальная документация DeepSeek отдельно подтверждает, что V4-Pro и V4-Flash доступны через актуальные API-интерфейсы [
25].
Но цена за токены — это не то же самое, что цена за успешно решённую задачу. Дешёвая модель может оказаться выгодной для черновиков, массовых запусков и низкорисковых агентных циклов. В продакшене важнее другое: сколько стоит один принятый результат с учётом повторов, ошибок, ручной проверки и доработок.
Как сравнивать эти модели честно
Публичный лидерборд — хорошая отправная точка, но плохая замена собственному eval. Для реального выбора лучше собрать небольшой набор задач из вашего кода, документации, терминальных workflows или агентных сценариев и прогнать все модели в одинаковых условиях.
Считать стоит не только первую точность. Полезнее смотреть на стоимость принятого результата, число повторных попыток, тяжесть ошибок, стабильность формата, время выполнения и то, насколько модель ломается на ваших внутренних ограничениях.
И главное — не смешивать официальные и вторичные данные. В этой подборке GPT-5.5 имеет официальные значения OpenAI для Terminal-Bench 2.0 и SWE-Bench Pro [24]. DeepSeek V4 имеет официальный факт доступности V4-Pro и V4-Flash в API [
25]. А наиболее конкретные сравнения по Claude Opus 4.7 и Kimi K2.6 здесь в основном опираются на сторонние источники [
4][
6].
Итог
Единого победителя нет. Claude Opus 4.7 лидирует в приведённых coding-ориентированных данных, GPT-5.5 лучше всего подтверждён для terminal-agent и computer-use задач, Kimi K2.6 выглядит главным кандидатом по цене, а DeepSeek V4 пока стоит воспринимать как доступный API-вариант, который обязательно нужно мерить на собственных сценариях [4][
24][
6][
25].




