Поэтому практический вопрос звучит не «кто номер один вообще», а иначе: какая модель сильнее именно в вашей задаче — кодинге, анализе документов, научном reasoning, управлении компьютером, клиентских сценариях или экономике запуска.
Бенчмарки ИИ в 2026 году — это не один экзамен, а набор разных дисциплин. Kili Technology относит MMLU, MMLU-Pro, GPQA Diamond, SWE-Bench, Terminal-Bench, GAIA, WebArena, GDPval и оценки безопасности к разным типам проверок, каждая из которых подсвечивает отдельный навык модели . Stanford HAI в AI Index также разбирает техническую производительность по отдельным направлениям: MMLU, MATH, GPQA Diamond, MMMU, OSWorld, AIME, SWE-bench Verified и другим метрикам
.
Особенно осторожно стоит относиться к старым универсальным тестам вроде MMLU. Nanonets отмечает, что MMLU считается в 5-shot-режиме, а к 2026 году сильные модели уже сгруппировались выше 88%, из-за чего тест всё хуже различает лидеров . Иными словами, MMLU может подтвердить, что модель относится к верхнему классу, но редко отвечает на вопрос, какую из топ-моделей стоит внедрять в конкретный рабочий процесс.
Если брать только те модели, по которым есть страницы BenchLM, лучшая позиция — у Claude Opus 4.7. BenchLM указывает Claude Opus 4.7 на 2-м месте из 110 моделей в provisional leaderboard с общим результатом 97/100, а также на 2-м месте из 14 в verified leaderboard .
GPT-5.5 в BenchLM стоит на 5-м месте из 112 моделей в provisional leaderboard с общим результатом 89/100; в verified leaderboard он указан на 2-м месте из 16 . Kimi 2.6, по данным BenchLM, получает 85/100, занимает 12-е место из 115 в provisional leaderboard, а на странице модели показаны 27 опубликованных бенчмарк-результатов
.
Но это не финальный пьедестал. Размеры выборок в этих страницах отличаются — 110, 112 и 115 моделей, — а сопоставимого BenchLM-балла для DeepSeek V4 в предоставленных материалах нет . Поэтому корректнее говорить так: в рамках BenchLM из трёх видимых участников сильнее выглядит Claude Opus 4.7, но это не доказывает абсолютное превосходство во всех сценариях.
В кодинге наиболее прямой публичный показатель в этом наборе данных — у Claude Opus 4.7. MindStudio пишет, что Claude Opus 4.7 набрал 82,4% на SWE-bench Verified и улучшился примерно на 11 пунктов относительно Opus 4.6 . В том же материале указаны FinanceBench 82,7% и рост MathVista на 9,5 пункта, что связывается с улучшением визуально-математического рассуждения и работы со структурированными графиками
.
Для GPT-5.5 в предоставленном официальном материале OpenAI на первый план вынесены не SWE-bench, а GDPval, OSWorld-Verified и Tau2-bench Telecom . Для Kimi K2.6 GMI Cloud заявляет лидерство на SWE-Bench Pro, но по доступному фрагменту нельзя надёжно восстановить точный балл и сравнить все четыре модели в одинаковых условиях
. У DeepSeek V4 в этом наборе источников конкретнее представлены не кодинговые, а reasoning- и математические метрики
.
Для задач в духе «модель не просто отвечает, а выполняет рабочий процесс» наиболее конкретные официальные цифры есть у GPT-5.5. OpenAI сообщает, что GPT-5.5 набрал 84,9% на GDPval — тесте, который проверяет способность агентов производить хорошо специфицированные результаты знаниевой работы по 44 профессиям . Там же указаны 78,7% на OSWorld-Verified, где оценивается способность модели самостоятельно работать в реальных компьютерных средах, и 98,0% на Tau2-bench Telecom, проверяющем сложные сценарии клиентской поддержки
.
У Claude Opus 4.7 тоже есть агентные данные, но другого типа. Anthropic сообщает, что на внутреннем research-agent benchmark Claude Opus 4.7 разделил лучший общий результат по шести модулям с баллом 0,715, а в модуле General Finance набрал 0,813 против 0,767 у Opus 4.6 .
Сравнивать эти числа напрямую нельзя: GDPval, OSWorld-Verified и Tau2-bench у GPT-5.5 и внутренний research-agent benchmark Anthropic измеряют разные вещи и используют разные шкалы . Балл 84,9% у GPT-5.5 и 0,715 у Claude — это не две оценки в одной ведомости
.
Самые конкретные цифры DeepSeek V4 в источниках относятся к конфигурации V4-Pro-Max. DataCamp пишет, что, согласно внутренним результатам DeepSeek, DeepSeek V4-Pro-Max получает 87,5% на MMLU-Pro, 90,1% на GPQA Diamond и 92,6% на GSM8K . Это важные ориентиры, но из-за привязки к внутренним результатам их не стоит приравнивать к полностью независимой проверке
.
На странице Hugging Face для DeepSeek-V4-Pro есть таблица, где DeepSeek V4-Pro-Max и Kimi K2.6 Thinking частично сравниваются в одних и тех же строках . В блоке knowledge & reasoning картина такая
:
| Бенчмарк | DeepSeek V4-Pro-Max | Kimi K2.6 Thinking | Кто выше в этой таблице |
|---|---|---|---|
| MMLU-Pro | 87,5 | 87,1 | DeepSeek V4-Pro-Max |
| SimpleQA-Verified | 57,9 | 36,9 | DeepSeek V4-Pro-Max |
| Chinese-SimpleQA | 84,4 | 75,9 | DeepSeek V4-Pro-Max |
| GPQA Diamond | 90,1 | 90,5 | Kimi K2.6 Thinking |
| HLE | 37,7 | 36,4 | DeepSeek V4-Pro-Max |
По этой таблице DeepSeek V4-Pro-Max выше Kimi K2.6 Thinking на MMLU-Pro, SimpleQA-Verified, Chinese-SimpleQA и HLE, а Kimi K2.6 Thinking чуть выше на GPQA Diamond . Но таблица не сравнивает именно Claude Opus 4.7 и GPT-5.5: рядом указаны Opus-4.6 Max и GPT-5.4 xHigh, то есть другие модели
. Поэтому из неё нельзя вывести полный рейтинг всех четырёх участников.
Vals AI даёт полезный, но отдельный срез. Для GPT-5.5 указаны Accuracy 67,76% ± 1,79, Latency 409,09 с и Context Window 1M . Для Kimi K2.6 указаны Accuracy 63,94% ± 1,97, Latency 373,57 с и Cost/Test $0,21
. Если сравнивать только эти две записи Vals, у GPT-5.5 выше показатель точности, а у Kimi K2.6 ниже задержка
.
Отдельный аргумент в пользу Kimi K2.6 — статус open weights. Artificial Analysis называет Moonshot Kimi K2.6 ведущей open weights-моделью и указывает Artificial Analysis Intelligence Index 54, а также 4-е место в общем рейтинге . Но и здесь нельзя смешивать шкалы: индекс 54 от Artificial Analysis, Vals Accuracy 63,94% и BenchLM 85/100 — это не части одной формулы
.
По открытым материалам Claude Opus 4.7 сильнее всего выглядит в кодинге и общем BenchLM-срезе, GPT-5.5 — в рабочих агентных задачах и управлении компьютерной средой, DeepSeek V4-Pro-Max — в опубликованных reasoning- и математических метриках, а Kimi K2.6 — в open weights и операционных показателях вроде стоимости и задержки .
Но честного полного рейтинга «с 1-го по 4-е место» пока не выходит. Для внедрения лучше использовать эти бенчмарки как карту местности, а не как готовый приказ: прогоните модели на собственных задачах — кодовых репозиториях, финансовых документах, браузерных сценариях, обращениях клиентов или длинных агентных цепочках. Именно такой тест покажет, какая модель сильнее не в абстрактной таблице, а в вашей рабочей среде .
Comments
0 comments