Здесь н/д означает, что значение не было приведено в соответствующем источнике, а не что модель получила ноль.
В GPQA Diamond разрыв между Claude Opus 4.7 и GPT-5.5 небольшой: 94.2% против 93.6%, тогда как DeepSeek-V4-Pro-Max получает 90.1% . В Humanity’s Last Exam без инструментов преимущество Claude заметнее: 46.9% против 41.4% у GPT-5.5, 43.1% у GPT-5.5 Pro и 37.7% у DeepSeek-V4-Pro-Max
.
Но ранжирование меняется, когда в HLE разрешены инструменты. В этой строке GPT-5.5 Pro показывает 57.2%, Claude Opus 4.7 — 54.7%, GPT-5.5 — 52.2%, а DeepSeek-V4-Pro-Max — 48.2% . Поэтому точный вывод такой: Claude выглядит сильнее в чистом reasoning без инструментов, а GPT-5.5 Pro — в tool-augmented reasoning по доступной строке HLE
.
Самый крупный разрыв GPT-5.5 в этой выборке — Terminal-Bench 2.0: 82.7% против 69.4% у Claude Opus 4.7 и 67.9% у DeepSeek-V4-Pro-Max . У Kimi K2.6 в карточке модели указано 66.7 на Terminal-Bench 2.0, а отдельный лидерборд LLM Stats также приводит 0.667 для Kimi K2.6 и 0.694 для Claude Opus 4.7
. Это ставит Kimi близко к Claude и DeepSeek в этой конкретной шкале, но заметно ниже GPT-5.5 по общей таблице
.
В SWE-Bench Pro / SWE Pro картина другая: Claude Opus 4.7 лидирует с 64.3%, GPT-5.5 получает 58.6%, а DeepSeek-V4-Pro-Max — 55.4% . Kimi K2.6 также указан с 58.6 на SWE-Bench Pro в карточке Hugging Face, но это не тот же единый сравнительный прогон, что строка из общей таблицы
.
SWE-Bench Verified лучше не превращать в общий рейтинг всех четырёх моделей. Для Kimi K2.6 есть значение 80.2 в карточке модели и eval-файле . Отдельный обзор DeepSeek V4 сообщает 87.6% для Claude Opus 4.7 и 80.6% для DeepSeek V4-Pro, но не даёт полной строки для GPT-5.5 и относится к V4-Pro, а не к V4-Pro-Max
.
GPT-5.5 лучше всего выделяется в Terminal-Bench 2.0: 82.7% — лучший результат среди моделей в общей таблице по этой строке . GPT-5.5 Pro указан не во всех строках, но там, где он есть, выходит на первое место: 57.2% в HLE с инструментами и 90.1% в BrowseComp
.
Практический вывод: GPT-5.5 стоит первым проверять на терминальных agentic-сценариях, а GPT-5.5 Pro — на задачах, где важны инструменты, browsing или reasoning с внешними действиями .
Claude Opus 4.7 лидирует в нескольких строках общей таблицы: 94.2% в GPQA Diamond, 46.9% в HLE без инструментов, 64.3% в SWE-Bench Pro / SWE Pro и 79.1% в MCP Atlas / MCPAtlas Public . При этом Claude уступает GPT-5.5 в Terminal-Bench 2.0 и GPT-5.5 Pro в HLE с инструментами и BrowseComp
.
Если нужна первая модель-кандидат для сложного reasoning без инструментов или coding-задач, близких к SWE-Bench Pro, Claude Opus 4.7 выглядит наиболее сильным вариантом по этим строкам .
Kimi K2.6 нельзя строго ранжировать против всех остальных по единому прогону, потому что его цифры в этой статье идут из отдельной карточки Hugging Face и eval-файла . Но как coding-кандидат он выглядит заметно: карточка модели указывает 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro, 76.7 на SWE-Bench Multilingual, 66.7 на Terminal-Bench 2.0 и 73.1 на OSWorld-Verified
.
Операционно Kimi интересен тем, что источник указывает доступность весов на Hugging Face и запуск через vLLM, SGLang или KTransformers . Это не делает Kimi победителем общей benchmark-таблицы, но делает его отдельным кандидатом для команд, которым важны self-hosted или локальные эксперименты
.
В общей таблице DeepSeek представлен вариантом DeepSeek-V4-Pro-Max . В приведённых строках он не занимает первое место: 90.1% в GPQA Diamond, 37.7% в HLE без инструментов, 48.2% в HLE с инструментами, 67.9% в Terminal-Bench 2.0, 55.4% в SWE-Bench Pro / SWE Pro, 83.4% в BrowseComp и 73.6% в MCP Atlas / MCPAtlas Public
.
Сильная сторона DeepSeek V4 в этой подборке — не абсолютное лидерство, а цена при достаточной для части сценариев производительности. Mashable и DataCamp приводят API-цены DeepSeek V4 на уровне $1.74 за 1 млн input-токенов и $3.48 за 1 млн output-токенов; для сравнения, те же источники указывают $5/$30 для GPT-5.5 и $5/$25 для Claude Opus 4.7 . Если бюджет — главный ограничитель, DeepSeek V4 стоит включить в собственный eval, но не объявлять benchmark-лидером по этой таблице
.
Если смотреть только на сопоставимые строки общей таблицы, Claude Opus 4.7 выигрывает GPQA Diamond, Humanity’s Last Exam без инструментов, SWE-Bench Pro и MCP Atlas; GPT-5.5 выигрывает Terminal-Bench 2.0; GPT-5.5 Pro выигрывает HLE с инструментами и BrowseComp . Kimi K2.6 выглядит сильным coding-кандидатом с доступными весами по отдельным данным Hugging Face, но его нельзя строго ранжировать против остальных без общего прогона
. DeepSeek V4 в этих benchmark-строках не лидер, зато благодаря более низким опубликованным API-ценам остаётся моделью, которую разумно отдельно проверить в cost-sensitive сценариях
.
Comments
0 comments