Прочерк означает, что в использованных источниках не нашлось результата для этой модели, а не то, что модель получила ноль. Строки GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 и DeepSeek-V4-Pro-Max в основном взяты из одного общего сравнения; данные по Kimi K2.6 — из отдельных источников Moonshot/Kimi и лидербордов .
OpenAI описывает GPT-5.5 как модель для сложных задач — программирования, исследований и анализа данных . В общем сравнении GPT-5.5 набирает 82,7% на Terminal-Bench 2.0, опережая Claude Opus 4.7 с 69,4% и DeepSeek-V4-Pro-Max с 67,9%
. В той же таблице у неё 93,6% на GPQA Diamond, 58,6% на SWE-Bench Pro и 84,4% на BrowseComp
.
Главная оговорка — отдельное существование GPT-5.5 Pro как точки сравнения. В той же общей таблице GPT-5.5 Pro достигает 90,1% на BrowseComp и 57,2% на Humanity’s Last Exam с инструментами, но эти цифры не стоит автоматически переносить на базовую GPT-5.5 при оценке цены, задержки и настроек модели .
Для закупки и планирования бюджета есть только сигналы, а не окончательная смета: BenchLM указывает для GPT-5.5 контекстное окно 1M токенов, а один ценовой обзор приводит $5 за миллион входных токенов и $30 за миллион выходных токенов . Перед бюджетированием такие цифры лучше сверять с актуальным прайсингом провайдера.
Claude Opus 4.7 даёт самые сильные цитируемые сигналы по software-repair задачам в этой группе. LLM Stats указывает 87,6% на SWE-Bench Verified, а общее сравнение — 64,3% на SWE-Bench Pro . Также модель лидирует в общих строках GPQA Diamond с 94,2%, Humanity’s Last Exam без инструментов с 46,9% и MCP Atlas с 79,1%
.
LLM Stats сообщает для Claude Opus 4.7 контекстное окно 1M токенов и цену $5/$25 за миллион токенов . Но сравнимость результатов требует осторожности: Anthropic отмечает, что часть бенчмарков использовала внутренние реализации или обновлённые параметры harness, а некоторые оценки не являются напрямую сопоставимыми с публичными лидербордами
.
Kimi K2.6 — самый сильный open-weight кандидат в цитируемом материале. Релизное освещение описывает её как open-weight MoE-модель на 1 трлн параметров с 32 млрд активных параметров, 384 экспертами, нативной мультимодальностью, INT4-квантизацией и контекстом 256K . Карточка модели на Hugging Face сообщает 80,2% на SWE-Bench Verified, 58,6% на SWE-Bench Pro, 66,7% на Terminal-Bench 2.0 и 89,6 на LiveCodeBench v6
.
То же релизное освещение указывает для Kimi K2.6 54,0 на Humanity’s Last Exam с инструментами и 83,2 на BrowseComp . LLM Stats перечисляет для Kimi K2.6 контекст 262K, $0,95/$4,00 в ценовых колонках и метку Open Source
. Ограничение здесь принципиальное: показатели Kimi взяты не из той же общей таблицы, что GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max, поэтому небольшие разницы лучше воспринимать как повод для собственного теста, а не как окончательный вердикт
.
DeepSeek-V4-Pro-Max выглядит скорее как кандидат на лучшее соотношение цены и качества, а не как безусловный лидер по бенчмаркам. LLM Stats указывает для него размер 1,6T, контекст 1M, 80,6% на SWE-Bench Verified и $1,74/$3,48 в ценовых колонках . В общем сравнении модель получает 90,1% на GPQA Diamond, 37,7% на Humanity’s Last Exam без инструментов, 48,2% на Humanity’s Last Exam с инструментами, 67,9% на Terminal-Bench 2.0, 55,4% на SWE-Bench Pro, 83,4% на BrowseComp и 73,6% на MCP Atlas
.
Эти цифры делают DeepSeek-V4-Pro-Max разумным кандидатом для cost-sensitive сценариев. Но та же таблица показывает, что GPT-5.5, GPT-5.5 Pro или Claude Opus 4.7 лидируют в большинстве приведённых строк, поэтому DeepSeek стоит валидировать на собственных задачах до замены премиальной модели в продакшене .
Стоимость и длина контекста не всегда приводятся одним и тем же источником или самим провайдером. Воспринимайте эти строки как ориентиры для закупки, а не как финальное коммерческое предложение.
Разные строки измеряют разные навыки. GPQA Diamond и Humanity’s Last Exam делают упор на сложное рассуждение, Terminal-Bench 2.0 и варианты SWE-Bench — на программирование и агентную работу с кодом, а BrowseComp в общем сравнении отражает browsing-style retrieval задачи . Поэтому модель может лидировать в одной строке и заметно уступать в другой: меняются задача, доступ к инструментам и оценочный harness.
Даже один и тот же бенчмарк может отличаться по реализации. LLM Stats указывает для Claude Opus 4.7 87,6% на SWE-Bench Verified, тогда как LMCouncil в своей настройке приводит 83,5% ± 1,7 . Anthropic также пишет, что часть результатов использовала внутренние реализации или обновлённые параметры harness, что ограничивает прямое сравнение с публичными лидербордами
.
Именно поэтому разрыв в один-два процентных пункта не должен сам по себе решать продакшен-внедрение. Публичные бенчмарки хороши для короткого списка; окончательное решение лучше принимать по собственному eval-набору.
Перед выбором модели прогоните две-три лучшие кандидатуры на задачах, похожих на ваши реальные сценарии.
Если нужен короткий список из премиальных моделей, начните с параллельного теста GPT-5.5 и Claude Opus 4.7: GPT-5.5 даёт самый сильный цитируемый Terminal-Bench 2.0, а Claude Opus 4.7 — самые сильные приведённые результаты SWE-Bench Pro и SWE-Bench Verified . Если требуются открытые веса, первым кандидатом выглядит Kimi K2.6
. Если главное ограничение — стоимость, включите DeepSeek-V4-Pro-Max, но проверьте его на собственных задачах, прежде чем считать полноценной заменой премиальным вариантам
.
Comments
0 comments