Бенчмарки легко превратить в таблицу «кто кого победил». Но в этом сравнении такой подход будет слишком грубым. Самое близкое общее сравнение в доступных источниках охватывает GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 и DeepSeek-V4-Pro-Max; Kimi K2.6 появляется в отдельных источниках — релизных материалах, model card и лидербордах [1][
6][
24]. Поэтому практический вопрос не «какая модель лучшая вообще», а «какую модель первой прогнать на ваших задачах».
Важная оговорка по названию: под DeepSeek V4 здесь подразумевается DeepSeek-V4-Pro-Max, потому что именно у этой версии есть строки с бенчмарками и стоимостью в цитируемых источниках [18][
24]. GPT-5.5 Pro также стоит держать отдельно от базовой GPT-5.5 в тех местах, где источник приводит разные результаты [
24].
Короткий вывод по типу задачи
- Терминальные coding-агенты: GPT-5.5 показывает самый сильный цитируемый результат Terminal-Bench 2.0 в общем сравнении — 82,7% [
24].
- Ремонт и сопровождение ПО: Claude Opus 4.7 лидирует в приведённых строках SWE-Bench Pro с 64,3% и SWE-Bench Verified с 87,6% [
18][
24].
- Сложное рассуждение без инструментов: Claude Opus 4.7 лидирует в общих строках GPQA Diamond и Humanity’s Last Exam без инструментов [
24].
- Рассуждение с инструментами и browsing-задачи: GPT-5.5 Pro лидирует в Humanity’s Last Exam с инструментами — 57,2% — и BrowseComp — 90,1%, когда эта Pro-версия указана отдельно [
24].
- Open-weight развёртывание: Kimi K2.6 — самый очевидный кандидат среди моделей с открытыми весами в этих источниках: её описывают как MoE-модель на 1 трлн параметров с 32 млрд активных параметров и контекстом 256K [
1].
- Чувствительный к цене облачный инференс: DeepSeek-V4-Pro-Max — модель, которую стоит проверить на соотношение цены и качества: LLM Stats указывает для неё контекст 1M, 80,6% на SWE-Bench Verified и $1,74/$3,48 в ценовых колонках [
18].
Сводная таблица бенчмарков
Прочерк означает, что в использованных источниках не нашлось результата для этой модели, а не то, что модель получила ноль. Строки GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 и DeepSeek-V4-Pro-Max в основном взяты из одного общего сравнения; данные по Kimi K2.6 — из отдельных источников Moonshot/Kimi и лидербордов [1][
6][
24].
| Бенчмарк | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | Kimi K2.6 | DeepSeek-V4-Pro-Max |
|---|---|---|---|---|---|
| GPQA Diamond | 93,6% [ | — | 94,2% [ | ≈91% [ | 90,1% [ |
| Humanity’s Last Exam, без инструментов | 41,4% [ | 43,1% [ | 46,9% [ | — | 37,7% [ |
| Humanity’s Last Exam, с инструментами | 52,2% [ | 57,2% [ | 54,7% [ | 54,0% [ | 48,2% [ |
| Terminal-Bench 2.0 | 82,7% [ | — | 69,4% [ | 66,7% [ | 67,9% [ |
| SWE-Bench Pro | 58,6% [ | — | 64,3% [ | 58,6% [ | 55,4% [ |
| BrowseComp | 84,4% [ | 90,1% [ | 79,3% [ | 83,2% [ | 83,4% [ |
| MCP Atlas / MCPAtlas Public | 75,3% [ | — | 79,1% [ | — | 73,6% [ |
| SWE-Bench Verified | — | — | 87,6% [ | 80,2% [ | 80,6% [ |
С какой модели начинать тесты
| Приоритет | Сначала тестировать | Почему |
|---|---|---|
| Терминальные coding-агенты | GPT-5.5 | Самый высокий Terminal-Bench 2.0 в общем сравнении — 82,7% [ |
| Ремонт и сопровождение кода | Claude Opus 4.7 | Лидирует в приведённых строках SWE-Bench Pro и SWE-Bench Verified среди этих моделей [ |
| Сложное рассуждение без инструментов | Claude Opus 4.7 | Лидирует в GPQA Diamond и Humanity’s Last Exam без инструментов в общем сравнении [ |
| Tool-assisted reasoning и browsing | GPT-5.5 Pro | Лидирует в Humanity’s Last Exam с инструментами и BrowseComp там, где GPT-5.5 Pro указана отдельно [ |
| Open-weight развёртывание | Kimi K2.6 | Описана как open-weight MoE-модель на 1 трлн параметров; карточка на Hugging Face приводит сильные результаты по coding-бенчмаркам [ |
| Экономия на hosted inference | DeepSeek-V4-Pro-Max | LLM Stats указывает 1M контекста, 80,6% на SWE-Bench Verified и более низкие ценовые колонки, чем у Claude Opus 4.7 на том же лидерборде [ |
| Длинный контекст | GPT-5.5, Claude Opus 4.7 или DeepSeek-V4-Pro-Max | Источники указывают 1M контекста для GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max; для Kimi K2.6 фигурирует примерно 256K–262K [ |
Заметки по моделям
GPT-5.5
OpenAI описывает GPT-5.5 как модель для сложных задач — программирования, исследований и анализа данных [38]. В общем сравнении GPT-5.5 набирает 82,7% на Terminal-Bench 2.0, опережая Claude Opus 4.7 с 69,4% и DeepSeek-V4-Pro-Max с 67,9% [
24]. В той же таблице у неё 93,6% на GPQA Diamond, 58,6% на SWE-Bench Pro и 84,4% на BrowseComp [
24].
Главная оговорка — отдельное существование GPT-5.5 Pro как точки сравнения. В той же общей таблице GPT-5.5 Pro достигает 90,1% на BrowseComp и 57,2% на Humanity’s Last Exam с инструментами, но эти цифры не стоит автоматически переносить на базовую GPT-5.5 при оценке цены, задержки и настроек модели [24].
Для закупки и планирования бюджета есть только сигналы, а не окончательная смета: BenchLM указывает для GPT-5.5 контекстное окно 1M токенов, а один ценовой обзор приводит $5 за миллион входных токенов и $30 за миллион выходных токенов [27][
36]. Перед бюджетированием такие цифры лучше сверять с актуальным прайсингом провайдера.
Claude Opus 4.7
Claude Opus 4.7 даёт самые сильные цитируемые сигналы по software-repair задачам в этой группе. LLM Stats указывает 87,6% на SWE-Bench Verified, а общее сравнение — 64,3% на SWE-Bench Pro [18][
24]. Также модель лидирует в общих строках GPQA Diamond с 94,2%, Humanity’s Last Exam без инструментов с 46,9% и MCP Atlas с 79,1% [
24].
LLM Stats сообщает для Claude Opus 4.7 контекстное окно 1M токенов и цену $5/$25 за миллион токенов [16]. Но сравнимость результатов требует осторожности: Anthropic отмечает, что часть бенчмарков использовала внутренние реализации или обновлённые параметры harness, а некоторые оценки не являются напрямую сопоставимыми с публичными лидербордами [
17].
Kimi K2.6
Kimi K2.6 — самый сильный open-weight кандидат в цитируемом материале. Релизное освещение описывает её как open-weight MoE-модель на 1 трлн параметров с 32 млрд активных параметров, 384 экспертами, нативной мультимодальностью, INT4-квантизацией и контекстом 256K [1]. Карточка модели на Hugging Face сообщает 80,2% на SWE-Bench Verified, 58,6% на SWE-Bench Pro, 66,7% на Terminal-Bench 2.0 и 89,6 на LiveCodeBench v6 [
6].
То же релизное освещение указывает для Kimi K2.6 54,0 на Humanity’s Last Exam с инструментами и 83,2 на BrowseComp [1]. LLM Stats перечисляет для Kimi K2.6 контекст 262K, $0,95/$4,00 в ценовых колонках и метку Open Source [
11]. Ограничение здесь принципиальное: показатели Kimi взяты не из той же общей таблицы, что GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max, поэтому небольшие разницы лучше воспринимать как повод для собственного теста, а не как окончательный вердикт [
1][
6][
24].
DeepSeek-V4-Pro-Max
DeepSeek-V4-Pro-Max выглядит скорее как кандидат на лучшее соотношение цены и качества, а не как безусловный лидер по бенчмаркам. LLM Stats указывает для него размер 1,6T, контекст 1M, 80,6% на SWE-Bench Verified и $1,74/$3,48 в ценовых колонках [18]. В общем сравнении модель получает 90,1% на GPQA Diamond, 37,7% на Humanity’s Last Exam без инструментов, 48,2% на Humanity’s Last Exam с инструментами, 67,9% на Terminal-Bench 2.0, 55,4% на SWE-Bench Pro, 83,4% на BrowseComp и 73,6% на MCP Atlas [
24].
Эти цифры делают DeepSeek-V4-Pro-Max разумным кандидатом для cost-sensitive сценариев. Но та же таблица показывает, что GPT-5.5, GPT-5.5 Pro или Claude Opus 4.7 лидируют в большинстве приведённых строк, поэтому DeepSeek стоит валидировать на собственных задачах до замены премиальной модели в продакшене [24].
Цена и контекст: как читать сигналы
Стоимость и длина контекста не всегда приводятся одним и тем же источником или самим провайдером. Воспринимайте эти строки как ориентиры для закупки, а не как финальное коммерческое предложение.
| Модель | Сигнал по контексту и цене | Практическое чтение |
|---|---|---|
| GPT-5.5 | BenchLM указывает 1M контекста; один ценовой обзор приводит $5 за вход и $30 за выход за миллион токенов [ | Премиальный hosted-вариант; обязательно сверять актуальную цену. |
| Claude Opus 4.7 | LLM Stats сообщает 1M контекста и $5/$25 за миллион токенов [ | Премиальный вариант для coding, reasoning и long-context задач. |
| Kimi K2.6 | Релизное освещение говорит о 256K контекста; LLM Stats указывает 262K и $0,95/$4,00 в ценовых колонках [ | Сильный open-weight кандидат; hosted-цена может зависеть от провайдера. |
| DeepSeek-V4-Pro-Max | LLM Stats указывает 1M контекста, размер 1,6T, 80,6% на SWE-Bench Verified и $1,74/$3,48 в ценовых колонках [ | Сильный value-кандидат, если качество подтвердится на ваших задачах. |
Почему рейтинги расходятся
Разные строки измеряют разные навыки. GPQA Diamond и Humanity’s Last Exam делают упор на сложное рассуждение, Terminal-Bench 2.0 и варианты SWE-Bench — на программирование и агентную работу с кодом, а BrowseComp в общем сравнении отражает browsing-style retrieval задачи [24]. Поэтому модель может лидировать в одной строке и заметно уступать в другой: меняются задача, доступ к инструментам и оценочный harness.
Даже один и тот же бенчмарк может отличаться по реализации. LLM Stats указывает для Claude Opus 4.7 87,6% на SWE-Bench Verified, тогда как LMCouncil в своей настройке приводит 83,5% ± 1,7 [18][
30]. Anthropic также пишет, что часть результатов использовала внутренние реализации или обновлённые параметры harness, что ограничивает прямое сравнение с публичными лидербордами [
17].
Именно поэтому разрыв в один-два процентных пункта не должен сам по себе решать продакшен-внедрение. Публичные бенчмарки хороши для короткого списка; окончательное решение лучше принимать по собственному eval-набору.
Как проверять финалистов
Перед выбором модели прогоните две-три лучшие кандидатуры на задачах, похожих на ваши реальные сценарии.
- Используйте реальные промпты, файлы и репозитории. Бенчмарки редко отражают особенности вашего кода, документов, политик и поведения пользователей.
- Повторите инструментальную среду. Результаты coding-агента могут меняться, если у модели есть терминал, browsing, retrieval, контекст репозитория или внутренние API.
- Сравнивайте цену и задержку при одинаковых настройках. Pro-режимы и повышенный reasoning effort могут менять качество, расход токенов и время ответа.
- Разбирайте ошибки вручную. Для coding-задач смотрите тесты, diff, поддерживаемость, регрессии безопасности и выдуманные зависимости.
- Включите хотя бы одного более дешёвого претендента. Если важны открытые веса или стоимость инференса, Kimi K2.6 и DeepSeek-V4-Pro-Max заслуживают места в тестовом наборе [
1][
18].
Итог
Если нужен короткий список из премиальных моделей, начните с параллельного теста GPT-5.5 и Claude Opus 4.7: GPT-5.5 даёт самый сильный цитируемый Terminal-Bench 2.0, а Claude Opus 4.7 — самые сильные приведённые результаты SWE-Bench Pro и SWE-Bench Verified [18][
24]. Если требуются открытые веса, первым кандидатом выглядит Kimi K2.6 [
1][
6]. Если главное ограничение — стоимость, включите DeepSeek-V4-Pro-Max, но проверьте его на собственных задачах, прежде чем считать полноценной заменой премиальным вариантам [
18][
24].




