Сравнивать Claude Opus 4.7, GPT-5.5, DeepSeek V4/V4 Pro и Kimi K2.6 как участников одной идеально измеренной лиги нельзя. Доказательная база неровная: по Claude есть официальная публикация Anthropic и сильный внешний сигнал от Vals AI [16][
17]; по GPT-5.5 заметные цифры reasoning приходят в основном из O-Mega, Vellum и BenchLM [
3][
6][
12]; по DeepSeek данные относятся к разным вариантам — V4, V4 Pro и V4 Pro High [
25][
26][
27]; по Kimi K2.6 пока видны только отдельные показатели, включая 0,91 в GPQA у LLM Stats и попадание в топ-10 WhatLLM по Quality Index [
7][
21].
Короткий вердикт
| Модель | Самая аккуратная интерпретация | Надежность доказательств |
|---|---|---|
| Claude Opus 4.7 | Самый сильный публично подтвержденный кейс для coding, агентных задач и многошаговой работы. Anthropic сообщает 0,715 во внутреннем benchmark для research-agent, а Vals AI ставит модель первой в SWE-bench с 82,00% [ | Высокая/средняя |
| GPT-5.5 | Очень силен в общем reasoning: O-Mega указывает 92,4% в MMLU, 93,6% в GPQA Diamond, 85,0% в ARC-AGI-2 и 95,0% в ARC-AGI-1 [ | Средняя |
| DeepSeek V4 / V4 Pro | Перспективен для coding и технических экспериментов, но источники смешивают варианты DeepSeek V4, V4 Pro и V4 Pro High, поэтому цифры нельзя автоматически переносить с одной версии на другую [ | Средняя/низкая |
| Kimi K2.6 | Есть частичные сигналы — LLM Stats показывает 0,91 в GPQA, WhatLLM включает модель в топ-10 по Quality Index, — но не хватает широкой сопоставимой базы бенчмарков [ | Низкая |
Сравнительная таблица: где есть числа
| Бенчмарк или метрика | Claude Opus 4.7 | GPT-5.5 | DeepSeek V4 / V4 Pro | Kimi K2.6 | Что это говорит |
|---|---|---|---|---|---|
| SWE-bench | 82,00% у Vals AI, страница обновлена 24.04.2026 [ | В доступных источниках нет сопоставимой цифры | 81% заявлен NxCode для DeepSeek V4 [ | В доступных источниках нет сопоставимой цифры | Самый чистый внешний сигнал здесь — в пользу Claude. |
| SWE-bench Verified | 87,6% по Vellum; 83,5% ± 1,7 по LMCouncil [ | В доступных источниках нет сопоставимой цифры | Hugging Face перечисляет SWE-bench Verified в общественной оценке DeepSeek-V4-Pro, но в найденной выжимке нет видимой цифры [ | В доступных источниках нет сопоставимой цифры | Результаты зависят от источника, конфигурации и варианта теста. |
| SWE-bench Pro | 64,3% по Vellum [ | В доступных источниках нет сопоставимой цифры | Hugging Face перечисляет SWE-bench Pro в общественной оценке, но без видимой цифры в найденной выжимке [ | В доступных источниках нет сопоставимой цифры | Важнее для долгих агентных задач в разработке ПО, чем обычные coding-тесты. |
| GPQA Diamond | 94,2% по O-Mega, Vellum и TNW [ | 93,6% по O-Mega и Vellum [ | Упоминается в общественных наборах оценок, но без сопоставимой видимой цифры в найденной выжимке [ | 0,91 у LLM Stats [ | Claude и GPT-5.5 слишком близки, чтобы выбирать победителя только по GPQA. |
| MMLU | В доступных источниках нет сопоставимой цифры | 92,4% по O-Mega [ | MMLU-Pro есть в общественной оценке, но без видимой цифры в найденной выжимке [ | В доступных источниках нет сопоставимой цифры | MMLU стоит взвешивать слабо: у топ-моделей он уже насыщен. |
| ARC-AGI | В доступных источниках нет сопоставимой цифры | ARC-AGI-2: 85,0%; ARC-AGI-1: 95,0% по O-Mega [ | В доступных источниках нет сопоставимой цифры | В доступных источниках нет сопоставимой цифры | Усиливает аргумент в пользу GPT-5.5 по reasoning, но источник остается сторонним. |
| Research-agent / многошаговая работа | 0,715 во внутреннем benchmark Anthropic [ | В доступных источниках нет сопоставимой цифры | BenchLM дает 83,8/100 в категории Agentic для DeepSeek V4 Pro High [ | В доступных источниках нет сопоставимой цифры | Полезно как направление возможностей, но метрики не эквивалентны. |
| Длинный контекст / Needle-in-a-Haystack | Anthropic утверждает, что Opus 4.7 показал самую стабильную long-context производительность среди протестированных ею моделей [ | В доступных источниках нет сопоставимой цифры | NxCode сообщает 97% на 1 млн токенов, но сама подача зависит от независимой проверки [ | В доступных источниках нет сопоставимой цифры | У DeepSeek сильное заявление, но не закрытый вывод. |
| LiveCodeBench / Codeforces | В доступных источниках нет сопоставимой цифры | В доступных источниках нет сопоставимой цифры | Redreamality указывает LiveCodeBench 93,5 и Codeforces 3206 для DeepSeek V4 [ | В доступных источниках нет сопоставимой цифры | Хороший сигнал для чистого coding, но он не решает вопрос агентной разработки. |
Почему один общий победитель — плохая формулировка
Главная ловушка таких сравнений — складывать в одну корзину разные тесты. SWE-bench оценивает решение реальных задач software engineering; Vals AI описывает его как бенчмарк для производственных задач разработки ПО [17]. SWE-bench Pro надо читать отдельно: работа о нем представляет этот вариант как существенно более сложный benchmark для long-horizon software engineering tasks [
38].
GPQA Diamond полезен для научного reasoning, но уже плохо разделяет модели верхнего уровня. TNW отмечает, что в GPQA Diamond результаты Opus 4.7, GPT-5.4 Pro и Gemini 3.1 Pro находятся настолько близко, что различия попадают в шум измерения [15]. С MMLU осторожность еще важнее: Nanonets пишет, что в 2026 году топ-модели уже набирают выше 88%, поэтому тест слишком насыщен, чтобы тонко различать лидеров [
1].
Есть и вопрос происхождения цифр. Официальная публикация лаборатории, независимый leaderboard, агрегатор и обсуждение в сообществе — это разные уровни доказательности. Показательный пример: BenchLM отслеживает Claude Opus 4.7, но исключает профиль из публичного leaderboard, потому что пока не хватает достаточного объема публичного негенерированного покрытия для безопасного ранжирования [14].
Claude Opus 4.7: самый сильный публичный кейс для coding и агентов
Claude Opus 4.7 — модель с наиболее плотной доказательной базой в этой четверке. Anthropic сообщает, что Opus 4.7 разделил лучший общий результат во внутреннем research-agent benchmark с 0,715 и показал самую стабильную long-context производительность среди протестированных моделей [16]. Это внутренний тест, а не независимый leaderboard, но он ясно показывает, куда Anthropic позиционирует модель: многошаговая работа, контекст и дисциплина при работе с данными.
Внешний сигнал сильнее всего виден в SWE-bench. Vals AI ставит Claude Opus 4.7 на первое место с 82,00% на странице, обновленной 24 апреля 2026 года [17]. Vellum указывает 87,6% в SWE-bench Verified и 64,3% в SWE-bench Pro [
20]. LMCouncil, в свою очередь, приводит 83,5% ± 1,7 для Claude Opus 4.7 в SWE-bench Verified [
9].
Правильный вывод — не выбрать одну цифру и выбросить остальные. Гораздо честнее сказать, что Claude стабильно находится в верхней зоне, а местами лидирует в задачах software engineering, но SWE-bench, SWE-bench Verified и SWE-bench Pro — не один и тот же тест, и результаты могут расходиться из-за методологии, даты, подмножества задач или конфигурации [17][
20][
38].
В научном reasoning Claude Opus 4.7 получает 94,2% в GPQA Diamond у O-Mega, Vellum и TNW [3][
12][
15]. Но TNW отдельно предупреждает, что этот benchmark сжат между frontier-моделями, поэтому одного GPQA недостаточно для объявления глобального победителя [
15].
GPT-5.5: очень сильный reasoning, но меньше официальной трассируемости
GPT-5.5 лучше всего выглядит в наборах reasoning-метрик. O-Mega сообщает 92,4% в MMLU, 93,6% в GPQA Diamond, 85,0% в ARC-AGI-2 и 95,0% в ARC-AGI-1 [3]. Vellum также ставит GPT-5.5 на 93,6% в GPQA Diamond, ниже Claude Opus 4.7 в этой конкретной таблице [
12]. BenchLM относит GPT-5.5 к верхнему уровню: 89/100 в provisional leaderboard и 2-е место из 16 в verified leaderboard [
6].
Главная оговорка — трассируемость. В доступном наборе источников GPT-5.5 представлен в статьях, агрегаторах и benchmark-страницах, но не найден официальный набор результатов OpenAI, сопоставимый по полноте с публикацией Anthropic по Claude Opus 4.7. Appwrite пишет о запуске GPT-5.5 24 апреля 2026 года и указывает, что OpenAI выпустила модель 23 апреля; Vals перечисляет openai/gpt-5.5 с датой релиза 23.04.2026 и Vals Index 67,76% ± 1,79 [2][
11]. Это полезные ориентиры, но не замена официальной benchmark card.
Для управленческой презентации GPT-5.5 стоит показывать как модель первого эшелона в reasoning — особенно из-за GPQA и ARC-AGI. Но если критерий — однородная и публично проверяемая доказательная база по всем моделям, называть GPT-5.5 глобальным победителем преждевременно [3][
6][
12].
DeepSeek V4 / V4 Pro: многообещающе, но версии смешиваются
DeepSeek — самый неоднозначный случай по версиям. В источниках встречаются DeepSeek V4, DeepSeek V4 Pro и DeepSeek V4 Pro High, поэтому нельзя механически переносить цифру одной версии на другую [25][
26][
27].
На Hugging Face есть общественное обсуждение для DeepSeek-V4-Pro с результатами или наборами оценок по GPQA, GSM8K, HLE, MMLU-Pro, SWE-bench Pro, SWE-bench Verified и Terminal-Bench 2.0 [25]. BenchLM для DeepSeek V4 Pro High указывает 83,8/100 в Agentic, 88,8/100 в Coding и 72,1/100 в Knowledge [
27]. NxCode заявляет, что DeepSeek V4 достигает 81% в SWE-bench и 97% в Needle-in-a-Haystack на 1 млн токенов, но сама подача 97% требует независимого подтверждения [
26].
Redreamality добавляет еще один положительный сигнал для чистого coding: LiveCodeBench 93,5 и Codeforces 3206 для DeepSeek V4 [30]. Но тот же источник резюмирует, что в long-horizon агентной работе — например, SWE-bench Pro и Terminal-Bench 2.0 — закрытые frontier-модели все еще впереди [
30].
Практическая интерпретация такая: DeepSeek V4/V4 Pro стоит тестировать внутри команды, особенно если важны контроль над стеком, открытая экосистема, локальный контур или стоимость. Но по доступным источникам у DeepSeek пока нет такой же чистой публичной опоры, как у Claude в SWE-bench и во внутреннем benchmark Anthropic [16][
17][
25][
27].
Kimi K2.6: есть сигналы, но нет полноценной картины
Kimi K2.6 не стоит вычеркивать из списка, но и ставить рядом с Claude Opus 4.7, GPT-5.5 и DeepSeek V4/V4 Pro как полностью сопоставимую модель пока рано. LLM Stats показывает для Kimi K2.6 0,91 в GPQA, а WhatLLM включает модель в топ-10 по Quality Index [7][
21]. Это говорит о наличии benchmark-сигналов, но не дает широкой картины по coding, агентным задачам, long context и reasoning.
Отдельная методологическая ошибка — незаметно заменить Kimi K2.6 на Kimi K2.5. Simon Willison в феврале 2026 года разбирал результат Kimi K2.5 в SWE-bench Verified, но это другая версия модели [8]. Для строгого сравнения Kimi K2.6 нужно помечать как модель с недостаточной сопоставимой доказательной базой.
Выбор по сценарию использования
| Сценарий | Рекомендация | Уверенность | Почему |
|---|---|---|---|
| Исправление реальных issues и agentic coding | Claude Opus 4.7 | Высокая/средняя | Vals AI ставит модель первой в SWE-bench с 82,00%, а Vellum показывает сильные результаты в SWE-bench Verified и SWE-bench Pro [ |
| Многошаговые research-agent задачи | Claude Opus 4.7 | Средняя | Anthropic сообщает 0,715 во внутреннем benchmark и лучшую стабильность long-context среди протестированных моделей [ |
| Научный reasoning уровня GPQA | Claude Opus 4.7 или GPT-5.5 | Средняя | Claude получает 94,2%, GPT-5.5 — 93,6%; разница небольшая, а GPQA уже сжат между топ-моделями [ |
| Широкий общий reasoning | GPT-5.5 | Средняя/низкая | Цифры по MMLU, GPQA и ARC-AGI сильные, но в основном идут от O-Mega, Vellum, BenchLM и других сторонних источников [ |
| Эксперименты с открытым или локальным техническим контуром | DeepSeek V4 / V4 Pro | Средняя/низкая | Есть сигналы от Hugging Face, BenchLM, NxCode и Redreamality, но версии смешиваются и нужна собственная валидация [ |
| Полный количественный рейтинг с равной доказательной базой | Не использовать Kimi K2.6 как проверенный аналог | Низкая | Есть частичные сигналы вроде GPQA 0,91 у LLM Stats, но не хватает сопоставимого покрытия [ |
Как вынести это на презентацию и не переобещать
Самый безопасный формат — разделить производительность и качество доказательств. На одном слайде можно показать рекомендации по сценариям, на втором — таблицу чисел, на третьем — ограничения методологии.
Главный тезис должен быть простым: Claude Opus 4.7 — лучше всего подтвержденный лидер для coding и агентных задач; GPT-5.5 — самый сильный соперник в общем reasoning; DeepSeek V4/V4 Pro — перспективная техническая альтернатива, которую надо проверять на своих задачах; Kimi K2.6 пока остается в зоне ожидания данных.
Методологические оговорки обязательны. Во-первых, не смешивать SWE-bench, SWE-bench Verified и SWE-bench Pro: SWE-bench Pro специально нацелен на более трудные long-horizon задачи software engineering [38]. Во-вторых, не строить решение на одном MMLU, потому что у топ-моделей этот benchmark уже слишком насыщен [
1]. В-третьих, возле каждой цифры стоит отмечать тип источника: официальная публикация, независимый leaderboard, агрегатор, общественная оценка или технический claim.
Итог
Если цель — выбрать модель для презентации с максимально защищаемой доказательной базой, первым номером должен идти Claude Opus 4.7: у него есть официальная публикация Anthropic, лидерство в Vals SWE-bench и сильные результаты в вариантах SWE-bench по сторонним источникам [16][
17][
20]. GPT-5.5 стоит показывать как конкурента первого уровня в reasoning, но с пометкой, что найденные цифры в основном вторичные или агрегированные [
3][
6][
12]. DeepSeek V4/V4 Pro заслуживает внутреннего теста, а не объявления победителем [
25][
26][
27][
30]. Kimi K2.6 на текущей базе данных корректнее оставить как модель с недостаточным сопоставимым покрытием [
7][
21].




