GPT-5.5 — самый сильный подтвержденный универсал. В доступном фрагменте Artificial Analysis GPT-5.5 в конфигурации xhigh набирает 60 пунктов, GPT-5.5 high — 59 пунктов, а Claude Opus 4.7 — 57 пунктов . В BrowseComp GPT-5.5 получает 84,4 %, DeepSeek V4 — 83,4 %, Claude Opus 4.7 — 79,3 %
.
Claude Opus 4.7 особенно убедителен в кодинге и задачах на знания. В SWE-Bench Pro Claude Opus 4.7 показывает 64,3 % против 58,6 % у GPT-5.5, а в GPQA Diamond — 94,2 % против 93,6 % у GPT-5.5 . При этом в Terminal-Bench 2.0 GPT-5.5 заметно впереди: 82,7 % против 69,4 % у Claude Opus 4.7
.
DeepSeek V4 — главный ценовой претендент. VentureBeat приводит для DeepSeek V4 результат 83,4 % в BrowseComp: это всего на 1,0 процентного пункта ниже GPT-5.5 и выше результата Claude Opus 4.7 . Mashable при этом указывает API-цены DeepSeek V4: 1,74 доллара США за 1 млн входных токенов и 3,48 доллара США за 1 млн выходных токенов, тогда как для GPT-5.5 указаны 5 и 30 долларов, а для Claude Opus 4.7 — 5 и 25 долларов соответственно
.
Kimi K2.6 нельзя честно ранжировать по этим данным. DocsBot описывает Kimi K2.6 как open-source, нативно мультимодальную агентную модель с MoE-архитектурой на 1 трлн параметров, 32 млрд активных параметров и контекстом 256 тыс. токенов . Но в предоставленных источниках не хватает прямых сопоставимых результатов против GPT-5.5, Claude Opus 4.7 и DeepSeek V4
.
Главное ограничение — неоднородность данных. DataCamp в смежном сравнении frontier-моделей отмечает, что часть бенчмарков может быть vendor-reported, то есть опубликована самими поставщиками, а разные тесты могут использовать разные harness-конфигурации . Проще говоря, модель может выглядеть сильнее в одном режиме запуска и слабее в другом.
Есть и различия в самих вариантах моделей. Artificial Analysis отдельно указывает GPT-5.5 xhigh, GPT-5.5 high и Claude Opus 4.7 с Adaptive Reasoning и Max Effort . VentureBeat говорит о DeepSeek-V4-Pro-Max
. Для reasoning-, coding- и агентных задач такие детали важны: результат может зависеть от режима рассуждения, использования инструментов и тестовой обвязки.
Поэтому правильный вопрос звучит не только так: какая модель номер один? Гораздо полезнее спрашивать: для какой рабочей нагрузки какая модель лучше подтверждена?
Самый ясный общий ориентир в источниках — фрагмент Artificial Analysis Intelligence Index. В нем GPT-5.5 xhigh занимает первое место с 60 пунктами, GPT-5.5 high — второе с 59 пунктами, а Claude Opus 4.7 с Adaptive Reasoning и Max Effort — третье с 57 пунктами .
Это дает GPT-5.5 небольшой, но видимый перевес над Claude Opus 4.7 именно в этом индексе . Но тот же доступный фрагмент не дает полных напрямую цитируемых значений для DeepSeek V4 и Kimi K2.6, поэтому полноценный рейтинг всех четырех моделей по этому показателю построить нельзя
.
BrowseComp — самый сильный прямой трехсторонний фрагмент для GPT-5.5, Claude Opus 4.7 и DeepSeek V4. VentureBeat указывает 90,1 % для GPT-5.5 Pro, 84,4 % для GPT-5.5, 83,4 % для DeepSeek V4 и 79,3 % для Claude Opus 4.7 .
Важно не переинтерпретировать этот результат. VentureBeat пишет, что DeepSeek-V4-Pro-Max, несмотря на сильные цифры, не выглядит моделью, которая в целом свергает GPT-5.5 или Claude Opus 4.7 на прямо сопоставимых бенчмарках . Более аккуратный вывод: DeepSeek V4 очень близок к GPT-5.5 в BrowseComp, но один сильный тест не равен общей победе
.
В кодинговых бенчмарках нет единоличного победителя. Claude Opus 4.7 набирает 64,3 % в SWE-Bench Pro против 58,6 % у GPT-5.5 . Vellum также приводит 87,6 % для Claude Opus 4.7 в SWE-Bench Verified
. Но в Terminal-Bench 2.0 картина обратная: GPT-5.5 получает 82,7 %, Claude Opus 4.7 — 69,4 %
.
Для DeepSeek V4 и Kimi K2.6 данных в этом блоке недостаточно, чтобы поставить их в ту же таблицу. VentureBeat говорит, что DeepSeek V4 близко подходит к лидерам на нескольких прямо сравнимых бенчмарках, но в доступном фрагменте самые четкие числа относятся к BrowseComp . Для Kimi K2.6 DocsBot дает прежде всего описание модели и архитектуры, а не полную матрицу результатов против остальных трех моделей
.
В тестах на знания и рассуждение GPT-5.5 и Claude Opus 4.7 идут близко, но лидер зависит от конкретного задания и от того, разрешены ли инструменты. В GPQA Diamond Vellum указывает 93,6 % для GPT-5.5 и 94,2 % для Claude Opus 4.7 . Mashable приводит те же значения GPQA Diamond и добавляет Humanity’s Last Exam: без инструментов GPT-5.5 получает 40,6 % против 31,2 % у Claude Opus 4.7, а с инструментами Claude Opus 4.7 немного впереди — 54,7 % против 52,2 % у GPT-5.5
.
В профессиональных и агентных бенчмарках картина тоже смешанная. Vellum указывает для GPT-5.5 84,9 % в GDPval против 80,3 % у Claude Opus 4.7, 78,7 % в OSWorld-Verified против 78,0 % и 75,3 % в MCP Atlas против 79,1 % у Claude . OpenAI приводит для FinanceAgent v1.1 60,0 % у GPT-5.5 и 64,4 % у Claude Opus 4.7
.
Anthropic также ссылается на внутренний research-agent benchmark: по данным компании, Claude Opus 4.7 разделил лучший общий результат по шести модулям с оценкой 0,715, а в модуле General Finance набрал 0,813 против 0,767 у Opus 4.6 . Поскольку это внутренний тест и он не покрывает все четыре модели одинаково, его лучше считать сигналом о сильной агентной стороне Claude, а не независимой общей таблицей
.
Для реального внедрения важен не только лишний процент в бенчмарке, но и стоимость API. Mashable указывает для DeepSeek V4 цену 1,74 доллара США за 1 млн входных токенов и 3,48 доллара США за 1 млн выходных токенов при контекстном окне 1 млн токенов . Для GPT-5.5 в той же публикации указаны 5 долларов за 1 млн входных токенов и 30 долларов за 1 млн выходных токенов; для Claude Opus 4.7 — 5 долларов за вход и 25 долларов за выход, также при контексте 1 млн токенов
.
Kimi K2.6 здесь стоит отдельно. DocsBot описывает модель с контекстом 256 тыс. токенов, MoE-архитектурой на 1 трлн параметров, 32 млрд активных параметров и агентной оркестрацией до 300 субагентов и 4 000 скоординированных шагов . Это важные технические характеристики, но они не заменяют прямых сопоставимых бенчмарков и цен против GPT-5.5, Claude Opus 4.7 и DeepSeek V4
.
Самый надежный вывод не в том, что одна модель выигрывает абсолютно все. GPT-5.5 в доступных источниках выглядит лучшим подтвержденным универсалом: он лидирует в фрагменте Artificial Analysis, силен в BrowseComp и хорошо показывает себя в нескольких профессиональных бенчмарках . Claude Opus 4.7 остается моделью верхнего уровня, особенно для SWE-Bench Pro, SWE-Bench Verified, GPQA Diamond и отдельных агентных финансовых задач
. DeepSeek V4 — самый заметный кандидат по цене и результату: в BrowseComp он почти догоняет GPT-5.5, а в процитированных API-ценах стоит намного дешевле
. Kimi K2.6 по этим данным не стоит ни завышать, ни недооценивать: для честного сравнения нужны прямые сопоставимые бенчмарки и цены
.
Comments
0 comments