По доступным опубликованным данным это не гонка с одним абсолютным победителем. Самая сопоставимая таблица покрывает GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 и DeepSeek-V4-Pro-Max; Kimi K2.6 приходится добавлять из отдельной карточки Hugging Face и eval-файла, поэтому его нельзя честно читать как часть того же head-to-head прогона [6][
25][
37].
Есть ещё одна важная оговорка: DeepSeek в общей таблице указан как DeepSeek-V4-Pro-Max, а отдельные данные по SWE-Bench Verified в другом источнике относятся к DeepSeek V4-Pro [6][
15]. Поэтому корректный вывод звучит так: разные варианты DeepSeek V4 показывают разные результаты в разных источниках, а не одна универсальная цифра для всей линейки.
Быстрый выбор по задаче
- Сложное reasoning без инструментов: сначала стоит тестировать Claude Opus 4.7 — он лидирует в GPQA Diamond и Humanity’s Last Exam без инструментов в общей таблице [
6].
- Терминальные agentic-задачи: GPT-5.5 выглядит сильнее всех в Terminal-Bench 2.0: 82.7% против 69.4% у Claude Opus 4.7 и 67.9% у DeepSeek-V4-Pro-Max [
6].
- Reasoning с инструментами и browsing: GPT-5.5 Pro лидирует там, где для него есть данные: 57.2% в HLE с инструментами и 90.1% в BrowseComp [
6].
- Coding и эксперименты с доступными весами: Kimi K2.6 стоит проверять отдельно: карточка модели указывает 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro и 66.7 на Terminal-Bench 2.0 [
25][
37]. Источник по Kimi также указывает, что веса доступны на Hugging Face и модель можно запускать через vLLM, SGLang или KTransformers [
7].
- Сценарии, где стоимость важнее первого места: DeepSeek V4 не лидирует в приведённой общей таблице, но источники указывают API-цены $1.74 за 1 млн input-токенов и $3.48 за 1 млн output-токенов против $5/$30 у GPT-5.5 и $5/$25 у Claude Opus 4.7 [
14][
19].
Сводная таблица результатов
| Бенчмарк | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | Лидер по доступным данным |
|---|---|---|---|---|---|---|
| GPQA Diamond | 93.6% [ | н/д | 94.2% [ | 90.1% у DeepSeek-V4-Pro-Max [ | н/д | Claude Opus 4.7 [ |
| Humanity’s Last Exam, без инструментов | 41.4% [ | 43.1% [ | 46.9% [ | 37.7% у DeepSeek-V4-Pro-Max [ | н/д | Claude Opus 4.7 [ |
| Humanity’s Last Exam, с инструментами | 52.2% [ | 57.2% [ | 54.7% [ | 48.2% у DeepSeek-V4-Pro-Max [ | н/д | GPT-5.5 Pro [ |
| Terminal-Bench 2.0 | 82.7% [ | н/д | 69.4% [ | 67.9% у DeepSeek-V4-Pro-Max [ | 66.7 [ | GPT-5.5 [ |
| SWE-Bench Pro / SWE Pro | 58.6% [ | н/д | 64.3% [ | 55.4% у DeepSeek-V4-Pro-Max [ | 58.6 [ | Claude Opus 4.7 [ |
| BrowseComp | 84.4% [ | 90.1% [ | 79.3% [ | 83.4% у DeepSeek-V4-Pro-Max [ | н/д | GPT-5.5 Pro [ |
| MCP Atlas / MCPAtlas Public | 75.3% [ | н/д | 79.1% [ | 73.6% у DeepSeek-V4-Pro-Max [ | н/д | Claude Opus 4.7 [ |
| SWE-Bench Verified | н/д | н/д | 87.6% в отдельном сравнении [ | 80.6% для DeepSeek V4-Pro, не Pro-Max [ | 80.2 [ | Нет общей строки для всех моделей [ |
Здесь н/д означает, что значение не было приведено в соответствующем источнике, а не что модель получила ноль.
Reasoning: Claude сильнее без инструментов, GPT-5.5 Pro — с инструментами
В GPQA Diamond разрыв между Claude Opus 4.7 и GPT-5.5 небольшой: 94.2% против 93.6%, тогда как DeepSeek-V4-Pro-Max получает 90.1% [6]. В Humanity’s Last Exam без инструментов преимущество Claude заметнее: 46.9% против 41.4% у GPT-5.5, 43.1% у GPT-5.5 Pro и 37.7% у DeepSeek-V4-Pro-Max [
6].
Но ранжирование меняется, когда в HLE разрешены инструменты. В этой строке GPT-5.5 Pro показывает 57.2%, Claude Opus 4.7 — 54.7%, GPT-5.5 — 52.2%, а DeepSeek-V4-Pro-Max — 48.2% [6]. Поэтому точный вывод такой: Claude выглядит сильнее в чистом reasoning без инструментов, а GPT-5.5 Pro — в tool-augmented reasoning по доступной строке HLE [
6].
Coding и agentic-бенчмарки: главный отрыв у GPT-5.5 в Terminal-Bench
Самый крупный разрыв GPT-5.5 в этой выборке — Terminal-Bench 2.0: 82.7% против 69.4% у Claude Opus 4.7 и 67.9% у DeepSeek-V4-Pro-Max [6]. У Kimi K2.6 в карточке модели указано 66.7 на Terminal-Bench 2.0, а отдельный лидерборд LLM Stats также приводит 0.667 для Kimi K2.6 и 0.694 для Claude Opus 4.7 [
25][
33]. Это ставит Kimi близко к Claude и DeepSeek в этой конкретной шкале, но заметно ниже GPT-5.5 по общей таблице [
6][
25][
33].
В SWE-Bench Pro / SWE Pro картина другая: Claude Opus 4.7 лидирует с 64.3%, GPT-5.5 получает 58.6%, а DeepSeek-V4-Pro-Max — 55.4% [6]. Kimi K2.6 также указан с 58.6 на SWE-Bench Pro в карточке Hugging Face, но это не тот же единый сравнительный прогон, что строка из общей таблицы [
6][
25].
SWE-Bench Verified лучше не превращать в общий рейтинг всех четырёх моделей. Для Kimi K2.6 есть значение 80.2 в карточке модели и eval-файле [25][
37]. Отдельный обзор DeepSeek V4 сообщает 87.6% для Claude Opus 4.7 и 80.6% для DeepSeek V4-Pro, но не даёт полной строки для GPT-5.5 и относится к V4-Pro, а не к V4-Pro-Max [
15].
По моделям: где каждая выглядит сильнее
GPT-5.5 и GPT-5.5 Pro
GPT-5.5 лучше всего выделяется в Terminal-Bench 2.0: 82.7% — лучший результат среди моделей в общей таблице по этой строке [6]. GPT-5.5 Pro указан не во всех строках, но там, где он есть, выходит на первое место: 57.2% в HLE с инструментами и 90.1% в BrowseComp [
6].
Практический вывод: GPT-5.5 стоит первым проверять на терминальных agentic-сценариях, а GPT-5.5 Pro — на задачах, где важны инструменты, browsing или reasoning с внешними действиями [6].
Claude Opus 4.7
Claude Opus 4.7 лидирует в нескольких строках общей таблицы: 94.2% в GPQA Diamond, 46.9% в HLE без инструментов, 64.3% в SWE-Bench Pro / SWE Pro и 79.1% в MCP Atlas / MCPAtlas Public [6]. При этом Claude уступает GPT-5.5 в Terminal-Bench 2.0 и GPT-5.5 Pro в HLE с инструментами и BrowseComp [
6].
Если нужна первая модель-кандидат для сложного reasoning без инструментов или coding-задач, близких к SWE-Bench Pro, Claude Opus 4.7 выглядит наиболее сильным вариантом по этим строкам [6].
Kimi K2.6
Kimi K2.6 нельзя строго ранжировать против всех остальных по единому прогону, потому что его цифры в этой статье идут из отдельной карточки Hugging Face и eval-файла [25][
37]. Но как coding-кандидат он выглядит заметно: карточка модели указывает 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro, 76.7 на SWE-Bench Multilingual, 66.7 на Terminal-Bench 2.0 и 73.1 на OSWorld-Verified [
25][
37].
Операционно Kimi интересен тем, что источник указывает доступность весов на Hugging Face и запуск через vLLM, SGLang или KTransformers [7]. Это не делает Kimi победителем общей benchmark-таблицы, но делает его отдельным кандидатом для команд, которым важны self-hosted или локальные эксперименты [
7][
25].
DeepSeek V4
В общей таблице DeepSeek представлен вариантом DeepSeek-V4-Pro-Max [6]. В приведённых строках он не занимает первое место: 90.1% в GPQA Diamond, 37.7% в HLE без инструментов, 48.2% в HLE с инструментами, 67.9% в Terminal-Bench 2.0, 55.4% в SWE-Bench Pro / SWE Pro, 83.4% в BrowseComp и 73.6% в MCP Atlas / MCPAtlas Public [
6].
Сильная сторона DeepSeek V4 в этой подборке — не абсолютное лидерство, а цена при достаточной для части сценариев производительности. Mashable и DataCamp приводят API-цены DeepSeek V4 на уровне $1.74 за 1 млн input-токенов и $3.48 за 1 млн output-токенов; для сравнения, те же источники указывают $5/$30 для GPT-5.5 и $5/$25 для Claude Opus 4.7 [14][
19]. Если бюджет — главный ограничитель, DeepSeek V4 стоит включить в собственный eval, но не объявлять benchmark-лидером по этой таблице [
6][
14][
19].
Главные ограничения сравнения
- Нет одного общего прогона для всех четырёх моделей во всех строках. Общая таблица покрывает GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 и DeepSeek-V4-Pro-Max, а Kimi K2.6 добавлен по отдельным источникам [
6][
25][
37].
- DeepSeek V4 обозначает разные варианты в разных источниках. В общей таблице указан DeepSeek-V4-Pro-Max, а отдельная цифра SWE-Bench Verified относится к DeepSeek V4-Pro [
6][
15].
- GPT-5.5 Pro есть не везде. В общей таблице Pro-колонка приведена только для некоторых бенчмарков, поэтому нельзя автоматически переносить его результат на строки, где он не указан [
6].
- Kimi K2.6 лучше проверять собственными evals. Его Hugging Face-результаты полезны, но они не взяты из той же общей таблицы, что данные по GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max [
6][
25][
37].
Итог
Если смотреть только на сопоставимые строки общей таблицы, Claude Opus 4.7 выигрывает GPQA Diamond, Humanity’s Last Exam без инструментов, SWE-Bench Pro и MCP Atlas; GPT-5.5 выигрывает Terminal-Bench 2.0; GPT-5.5 Pro выигрывает HLE с инструментами и BrowseComp [6]. Kimi K2.6 выглядит сильным coding-кандидатом с доступными весами по отдельным данным Hugging Face, но его нельзя строго ранжировать против остальных без общего прогона [
7][
25][
37]. DeepSeek V4 в этих benchmark-строках не лидер, зато благодаря более низким опубликованным API-ценам остаётся моделью, которую разумно отдельно проверить в cost-sensitive сценариях [
6][
14][
19].




