Главная ловушка таких сравнений — складывать в одну корзину разные тесты. SWE-bench оценивает решение реальных задач software engineering; Vals AI описывает его как бенчмарк для производственных задач разработки ПО . SWE-bench Pro надо читать отдельно: работа о нем представляет этот вариант как существенно более сложный benchmark для long-horizon software engineering tasks
.
GPQA Diamond полезен для научного reasoning, но уже плохо разделяет модели верхнего уровня. TNW отмечает, что в GPQA Diamond результаты Opus 4.7, GPT-5.4 Pro и Gemini 3.1 Pro находятся настолько близко, что различия попадают в шум измерения . С MMLU осторожность еще важнее: Nanonets пишет, что в 2026 году топ-модели уже набирают выше 88%, поэтому тест слишком насыщен, чтобы тонко различать лидеров
.
Есть и вопрос происхождения цифр. Официальная публикация лаборатории, независимый leaderboard, агрегатор и обсуждение в сообществе — это разные уровни доказательности. Показательный пример: BenchLM отслеживает Claude Opus 4.7, но исключает профиль из публичного leaderboard, потому что пока не хватает достаточного объема публичного негенерированного покрытия для безопасного ранжирования .
Claude Opus 4.7 — модель с наиболее плотной доказательной базой в этой четверке. Anthropic сообщает, что Opus 4.7 разделил лучший общий результат во внутреннем research-agent benchmark с 0,715 и показал самую стабильную long-context производительность среди протестированных моделей . Это внутренний тест, а не независимый leaderboard, но он ясно показывает, куда Anthropic позиционирует модель: многошаговая работа, контекст и дисциплина при работе с данными.
Внешний сигнал сильнее всего виден в SWE-bench. Vals AI ставит Claude Opus 4.7 на первое место с 82,00% на странице, обновленной 24 апреля 2026 года . Vellum указывает 87,6% в SWE-bench Verified и 64,3% в SWE-bench Pro
. LMCouncil, в свою очередь, приводит 83,5% ± 1,7 для Claude Opus 4.7 в SWE-bench Verified
.
Правильный вывод — не выбрать одну цифру и выбросить остальные. Гораздо честнее сказать, что Claude стабильно находится в верхней зоне, а местами лидирует в задачах software engineering, но SWE-bench, SWE-bench Verified и SWE-bench Pro — не один и тот же тест, и результаты могут расходиться из-за методологии, даты, подмножества задач или конфигурации .
В научном reasoning Claude Opus 4.7 получает 94,2% в GPQA Diamond у O-Mega, Vellum и TNW . Но TNW отдельно предупреждает, что этот benchmark сжат между frontier-моделями, поэтому одного GPQA недостаточно для объявления глобального победителя
.
GPT-5.5 лучше всего выглядит в наборах reasoning-метрик. O-Mega сообщает 92,4% в MMLU, 93,6% в GPQA Diamond, 85,0% в ARC-AGI-2 и 95,0% в ARC-AGI-1 . Vellum также ставит GPT-5.5 на 93,6% в GPQA Diamond, ниже Claude Opus 4.7 в этой конкретной таблице
. BenchLM относит GPT-5.5 к верхнему уровню: 89/100 в provisional leaderboard и 2-е место из 16 в verified leaderboard
.
Главная оговорка — трассируемость. В доступном наборе источников GPT-5.5 представлен в статьях, агрегаторах и benchmark-страницах, но не найден официальный набор результатов OpenAI, сопоставимый по полноте с публикацией Anthropic по Claude Opus 4.7. Appwrite пишет о запуске GPT-5.5 24 апреля 2026 года и указывает, что OpenAI выпустила модель 23 апреля; Vals перечисляет openai/gpt-5.5 с датой релиза 23.04.2026 и Vals Index 67,76% ± 1,79 . Это полезные ориентиры, но не замена официальной benchmark card.
Для управленческой презентации GPT-5.5 стоит показывать как модель первого эшелона в reasoning — особенно из-за GPQA и ARC-AGI. Но если критерий — однородная и публично проверяемая доказательная база по всем моделям, называть GPT-5.5 глобальным победителем преждевременно .
DeepSeek — самый неоднозначный случай по версиям. В источниках встречаются DeepSeek V4, DeepSeek V4 Pro и DeepSeek V4 Pro High, поэтому нельзя механически переносить цифру одной версии на другую .
На Hugging Face есть общественное обсуждение для DeepSeek-V4-Pro с результатами или наборами оценок по GPQA, GSM8K, HLE, MMLU-Pro, SWE-bench Pro, SWE-bench Verified и Terminal-Bench 2.0 . BenchLM для DeepSeek V4 Pro High указывает 83,8/100 в Agentic, 88,8/100 в Coding и 72,1/100 в Knowledge
. NxCode заявляет, что DeepSeek V4 достигает 81% в SWE-bench и 97% в Needle-in-a-Haystack на 1 млн токенов, но сама подача 97% требует независимого подтверждения
.
Redreamality добавляет еще один положительный сигнал для чистого coding: LiveCodeBench 93,5 и Codeforces 3206 для DeepSeek V4 . Но тот же источник резюмирует, что в long-horizon агентной работе — например, SWE-bench Pro и Terminal-Bench 2.0 — закрытые frontier-модели все еще впереди
.
Практическая интерпретация такая: DeepSeek V4/V4 Pro стоит тестировать внутри команды, особенно если важны контроль над стеком, открытая экосистема, локальный контур или стоимость. Но по доступным источникам у DeepSeek пока нет такой же чистой публичной опоры, как у Claude в SWE-bench и во внутреннем benchmark Anthropic .
Kimi K2.6 не стоит вычеркивать из списка, но и ставить рядом с Claude Opus 4.7, GPT-5.5 и DeepSeek V4/V4 Pro как полностью сопоставимую модель пока рано. LLM Stats показывает для Kimi K2.6 0,91 в GPQA, а WhatLLM включает модель в топ-10 по Quality Index . Это говорит о наличии benchmark-сигналов, но не дает широкой картины по coding, агентным задачам, long context и reasoning.
Отдельная методологическая ошибка — незаметно заменить Kimi K2.6 на Kimi K2.5. Simon Willison в феврале 2026 года разбирал результат Kimi K2.5 в SWE-bench Verified, но это другая версия модели . Для строгого сравнения Kimi K2.6 нужно помечать как модель с недостаточной сопоставимой доказательной базой.
Самый безопасный формат — разделить производительность и качество доказательств. На одном слайде можно показать рекомендации по сценариям, на втором — таблицу чисел, на третьем — ограничения методологии.
Главный тезис должен быть простым: Claude Opus 4.7 — лучше всего подтвержденный лидер для coding и агентных задач; GPT-5.5 — самый сильный соперник в общем reasoning; DeepSeek V4/V4 Pro — перспективная техническая альтернатива, которую надо проверять на своих задачах; Kimi K2.6 пока остается в зоне ожидания данных.
Методологические оговорки обязательны. Во-первых, не смешивать SWE-bench, SWE-bench Verified и SWE-bench Pro: SWE-bench Pro специально нацелен на более трудные long-horizon задачи software engineering . Во-вторых, не строить решение на одном MMLU, потому что у топ-моделей этот benchmark уже слишком насыщен
. В-третьих, возле каждой цифры стоит отмечать тип источника: официальная публикация, независимый leaderboard, агрегатор, общественная оценка или технический claim.
Если цель — выбрать модель для презентации с максимально защищаемой доказательной базой, первым номером должен идти Claude Opus 4.7: у него есть официальная публикация Anthropic, лидерство в Vals SWE-bench и сильные результаты в вариантах SWE-bench по сторонним источникам . GPT-5.5 стоит показывать как конкурента первого уровня в reasoning, но с пометкой, что найденные цифры в основном вторичные или агрегированные
. DeepSeek V4/V4 Pro заслуживает внутреннего теста, а не объявления победителем
. Kimi K2.6 на текущей базе данных корректнее оставить как модель с недостаточным сопоставимым покрытием
.
Comments
0 comments