ОтчетыОпубликовано3 месяца назадLast edited 2 месяца назад20 источники

GPT-5.5 против Claude Opus 4.7, DeepSeek V4 и Kimi K2.6: кто лидирует в тестах

GPT 5.5 — самый убедительно подтвержденный универсал: 60 пунктов в доступном фрагменте Artificial Analysis Intelligence Index и 84,4 % в BrowseComp [2][3]. Claude Opus 4.7 особенно силен в программной инженерии и знаниях: 64,3 % в SWE Bench Pro против 58,6 % у GPT 5.5 и 94,2 % в GPQA Diamond против 93,6 % у GPT 5.5...

Искать и проверять факты с Studio Global AI Смотреть больше популярных страниц

Abstrakte Illustration eines KI-Benchmark-Dashboards mit mehreren konkurrierenden Sprachmodellen — GPT-5.5 vsKI-generierte redaktionelle Illustration zu einem Vergleich aktueller Sprachmodell-Benchmarks.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 und Kimi K2.6: Benchmark-Vergleich. Article summary: GPT 5.5 ist in den verfügbaren Quellen der stärkste belegte Allrounder: Es führt den Artificial Analysis Index mit 60 Punkten in der xhigh Konfiguration und liegt bei BrowseComp mit 84,4 % vor Claude Opus 4.7.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB
openai.com

Если свести сравнение к простой таблице мест, картина получится обманчивой. В доступных источниках GPT-5.5, Claude Opus 4.7, DeepSeek V4 и Kimi K2.6 не прогоняются в одном независимом тесте с одинаковыми настройками. Данные собраны из разных бенчмарков, конфигураций моделей, публикаций поставщиков и вторичных разборов .

Но общий рисунок все же просматривается. GPT-5.5 лучше всего подтвержден как универсальная модель; Claude Opus 4.7 выигрывает ряд важных тестов по коду и знаниям; DeepSeek V4 выглядит особенно сильным по цене относительно результата; Kimi K2.6 технически интересен, но по имеющимся данным его нельзя честно поставить в тот же числовой ряд .

Короткий вывод

GPT-5.5 — самый сильный подтвержденный универсал. В доступном фрагменте Artificial Analysis GPT-5.5 в конфигурации xhigh набирает 60 пунктов, GPT-5.5 high — 59 пунктов, а Claude Opus 4.7 — 57 пунктов . В BrowseComp GPT-5.5 получает 84,4 %, DeepSeek V4 — 83,4 %, Claude Opus 4.7 — 79,3 % .

Claude Opus 4.7 особенно убедителен в кодинге и задачах на знания. В SWE-Bench Pro Claude Opus 4.7 показывает 64,3 % против 58,6 % у GPT-5.5, а в GPQA Diamond — 94,2 % против 93,6 % у GPT-5.5 . При этом в Terminal-Bench 2.0 GPT-5.5 заметно впереди: 82,7 % против 69,4 % у Claude Opus 4.7 .

DeepSeek V4 — главный ценовой претендент. VentureBeat приводит для DeepSeek V4 результат 83,4 % в BrowseComp: это всего на 1,0 процентного пункта ниже GPT-5.5 и выше результата Claude Opus 4.7 . Mashable при этом указывает API-цены DeepSeek V4: 1,74 доллара США за 1 млн входных токенов и 3,48 доллара США за 1 млн выходных токенов, тогда как для GPT-5.5 указаны 5 и 30 долларов, а для Claude Opus 4.7 — 5 и 25 долларов соответственно .

Kimi K2.6 нельзя честно ранжировать по этим данным. DocsBot описывает Kimi K2.6 как open-source, нативно мультимодальную агентную модель с MoE-архитектурой на 1 трлн параметров, 32 млрд активных параметров и контекстом 256 тыс. токенов . Но в предоставленных источниках не хватает прямых сопоставимых результатов против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 .

Сравнение в одном взгляде

Модель	Самый сильный подтвержденный тезис	Ключевые цифры из источников	Практический смысл
GPT-5.5	Лидирует в доступном фрагменте Artificial Analysis Intelligence Index	Intelligence Index: 60 xhigh, 59 high ; BrowseComp: 84,4 %, GPT-5.5 Pro: 90,1 % ; Terminal-Bench 2.0: 82,7 %	Лучший стартовый выбор, если нужен универсальный флагман, но не победитель во всех отдельных дисциплинах
Claude Opus 4.7	Очень силен в SWE-Bench, GPQA и отдельных агентных задачах	Intelligence Index: 57 ; SWE-Bench Pro: 64,3 % ; SWE-Bench Verified: 87,6 % ; GPQA Diamond: 94,2 %	Особенно интересен для кода, ревью, сложных знаний и финансовых задач
DeepSeek V4	В BrowseComp почти догоняет GPT-5.5	BrowseComp: 83,4 % ; API-цена: 1,74 доллара за вход и 3,48 доллара за выход на 1 млн токенов	Сильный вариант, если важны стоимость API и веб-исследовательские задачи
Kimi K2.6	Описывается как открытая мультимодальная агентная модель с длинным контекстом	MoE на 1 трлн параметров, 32 млрд активных параметров, контекст 256 тыс. токенов	Технически заслуживает тестирования, но по этим источникам не имеет полноценной числовой базы для сравнения

Почему это не спортивная таблица

Главное ограничение — неоднородность данных. DataCamp в смежном сравнении frontier-моделей отмечает, что часть бенчмарков может быть vendor-reported, то есть опубликована самими поставщиками, а разные тесты могут использовать разные harness-конфигурации . Проще говоря, модель может выглядеть сильнее в одном режиме запуска и слабее в другом.

Есть и различия в самих вариантах моделей. Artificial Analysis отдельно указывает GPT-5.5 xhigh, GPT-5.5 high и Claude Opus 4.7 с Adaptive Reasoning и Max Effort . VentureBeat говорит о DeepSeek-V4-Pro-Max . Для reasoning-, coding- и агентных задач такие детали важны: результат может зависеть от режима рассуждения, использования инструментов и тестовой обвязки.

Поэтому правильный вопрос звучит не только так: какая модель номер один? Гораздо полезнее спрашивать: для какой рабочей нагрузки какая модель лучше подтверждена?

Общая производительность: GPT-5.5 впереди в доступном индексе

Самый ясный общий ориентир в источниках — фрагмент Artificial Analysis Intelligence Index. В нем GPT-5.5 xhigh занимает первое место с 60 пунктами, GPT-5.5 high — второе с 59 пунктами, а Claude Opus 4.7 с Adaptive Reasoning и Max Effort — третье с 57 пунктами .

Это дает GPT-5.5 небольшой, но видимый перевес над Claude Opus 4.7 именно в этом индексе . Но тот же доступный фрагмент не дает полных напрямую цитируемых значений для DeepSeek V4 и Kimi K2.6, поэтому полноценный рейтинг всех четырех моделей по этому показателю построить нельзя .

BrowseComp: DeepSeek V4 почти на уровне GPT-5.5

BrowseComp — самый сильный прямой трехсторонний фрагмент для GPT-5.5, Claude Opus 4.7 и DeepSeek V4. VentureBeat указывает 90,1 % для GPT-5.5 Pro, 84,4 % для GPT-5.5, 83,4 % для DeepSeek V4 и 79,3 % для Claude Opus 4.7 .

Модель или вариант	Результат BrowseComp	Что это означает
GPT-5.5 Pro	90,1 %	Явно впереди в этом фрагменте
GPT-5.5	84,4 %	Немного выше DeepSeek V4
DeepSeek V4	83,4 %	Всего на 1,0 процентного пункта ниже GPT-5.5
Claude Opus 4.7	79,3 %	Ниже GPT-5.5 и DeepSeek V4
Kimi K2.6	Нет прямо сопоставимого значения в предоставленных источниках	Честно ранжировать нельзя

Важно не переинтерпретировать этот результат. VentureBeat пишет, что DeepSeek-V4-Pro-Max, несмотря на сильные цифры, не выглядит моделью, которая в целом свергает GPT-5.5 или Claude Opus 4.7 на прямо сопоставимых бенчмарках . Более аккуратный вывод: DeepSeek V4 очень близок к GPT-5.5 в BrowseComp, но один сильный тест не равен общей победе .

Кодинг и программная инженерия: Claude выигрывает SWE, GPT — Terminal

В кодинговых бенчмарках нет единоличного победителя. Claude Opus 4.7 набирает 64,3 % в SWE-Bench Pro против 58,6 % у GPT-5.5 . Vellum также приводит 87,6 % для Claude Opus 4.7 в SWE-Bench Verified . Но в Terminal-Bench 2.0 картина обратная: GPT-5.5 получает 82,7 %, Claude Opus 4.7 — 69,4 % .

Бенчмарк	GPT-5.5	Claude Opus 4.7	Вывод
SWE-Bench Pro	58,6 %	64,3 %	Claude впереди
SWE-Bench Verified	Нет прямо цитируемого значения GPT-5.5 в предоставленных источниках	87,6 %	Сильный показатель Claude, но не полный четырехсторонний тест
Terminal-Bench 2.0	82,7 %	69,4 %	GPT-5.5 заметно впереди

Для DeepSeek V4 и Kimi K2.6 данных в этом блоке недостаточно, чтобы поставить их в ту же таблицу. VentureBeat говорит, что DeepSeek V4 близко подходит к лидерам на нескольких прямо сравнимых бенчмарках, но в доступном фрагменте самые четкие числа относятся к BrowseComp . Для Kimi K2.6 DocsBot дает прежде всего описание модели и архитектуры, а не полную матрицу результатов против остальных трех моделей .

Reasoning, знания и профессиональные задачи: лидер меняется от теста к тесту

В тестах на знания и рассуждение GPT-5.5 и Claude Opus 4.7 идут близко, но лидер зависит от конкретного задания и от того, разрешены ли инструменты. В GPQA Diamond Vellum указывает 93,6 % для GPT-5.5 и 94,2 % для Claude Opus 4.7 . Mashable приводит те же значения GPQA Diamond и добавляет Humanity’s Last Exam: без инструментов GPT-5.5 получает 40,6 % против 31,2 % у Claude Opus 4.7, а с инструментами Claude Opus 4.7 немного впереди — 54,7 % против 52,2 % у GPT-5.5 .

Бенчмарк	GPT-5.5	Claude Opus 4.7	Кто впереди в доступных цифрах
GPQA Diamond	93,6 %	94,2 %	Claude Opus 4.7 с небольшим отрывом
Humanity’s Last Exam	40,6 %	31,2 %	GPT-5.5
Humanity’s Last Exam с инструментами	52,2 %	54,7 %	Claude Opus 4.7 с небольшим отрывом

В профессиональных и агентных бенчмарках картина тоже смешанная. Vellum указывает для GPT-5.5 84,9 % в GDPval против 80,3 % у Claude Opus 4.7, 78,7 % в OSWorld-Verified против 78,0 % и 75,3 % в MCP Atlas против 79,1 % у Claude . OpenAI приводит для FinanceAgent v1.1 60,0 % у GPT-5.5 и 64,4 % у Claude Opus 4.7 .

Бенчмарк	GPT-5.5	Claude Opus 4.7	Вывод
GDPval	84,9 %	80,3 %	GPT-5.5 впереди
OSWorld-Verified	78,7 %	78,0 %	GPT-5.5 немного впереди
MCP Atlas	75,3 %	79,1 %	Claude Opus 4.7 впереди
FinanceAgent v1.1	60,0 %	64,4 %	Claude Opus 4.7 впереди

Anthropic также ссылается на внутренний research-agent benchmark: по данным компании, Claude Opus 4.7 разделил лучший общий результат по шести модулям с оценкой 0,715, а в модуле General Finance набрал 0,813 против 0,767 у Opus 4.6 . Поскольку это внутренний тест и он не покрывает все четыре модели одинаково, его лучше считать сигналом о сильной агентной стороне Claude, а не независимой общей таблицей .

Цена и контекст: DeepSeek V4 выделяется сильнее всего

Для реального внедрения важен не только лишний процент в бенчмарке, но и стоимость API. Mashable указывает для DeepSeek V4 цену 1,74 доллара США за 1 млн входных токенов и 3,48 доллара США за 1 млн выходных токенов при контекстном окне 1 млн токенов . Для GPT-5.5 в той же публикации указаны 5 долларов за 1 млн входных токенов и 30 долларов за 1 млн выходных токенов; для Claude Opus 4.7 — 5 долларов за вход и 25 долларов за выход, также при контексте 1 млн токенов .

Модель	Цена входа за 1 млн токенов	Цена выхода за 1 млн токенов	Контекст в источнике
DeepSeek V4	1,74 доллара США	3,48 доллара США	1 млн токенов
GPT-5.5	5 долларов США	30 долларов США	1 млн токенов
Claude Opus 4.7	5 долларов США	25 долларов США	1 млн токенов
Kimi K2.6	Нет надежной цены в предоставленных источниках	Нет надежной цены в предоставленных источниках	256 тыс. токенов по DocsBot

Kimi K2.6 здесь стоит отдельно. DocsBot описывает модель с контекстом 256 тыс. токенов, MoE-архитектурой на 1 трлн параметров, 32 млрд активных параметров и агентной оркестрацией до 300 субагентов и 4 000 скоординированных шагов . Это важные технические характеристики, но они не заменяют прямых сопоставимых бенчмарков и цен против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 .

Какой выбор следует из этих данных

Если главный приоритет —	Вероятно лучший стартовый вариант	Почему
Самая сильная подтвержденная общая производительность	GPT-5.5	Лидирует в доступном фрагменте Intelligence Index и в BrowseComp находится выше Claude Opus 4.7 и немного выше DeepSeek V4
Software engineering, ориентированный на SWE-Bench	Claude Opus 4.7	Опережает GPT-5.5 в SWE-Bench Pro и имеет 87,6 % в SWE-Bench Verified
Терминальные, компьютерные и агентные задачи	GPT-5.5	Существенно впереди в Terminal-Bench 2.0, а также выше Claude Opus 4.7 в GDPval и OSWorld-Verified
Веб-исследование и низкая стоимость API	DeepSeek V4	Получает 83,4 % в BrowseComp и в приведенных данных стоит заметно дешевле по API
Тест открытой мультимодальной агентной модели	Kimi K2.6	Описывается как open-source, нативно мультимодальная агентная модель с контекстом 256 тыс. токенов, но без полной прямой сравнительной базы

Итог

Самый надежный вывод не в том, что одна модель выигрывает абсолютно все. GPT-5.5 в доступных источниках выглядит лучшим подтвержденным универсалом: он лидирует в фрагменте Artificial Analysis, силен в BrowseComp и хорошо показывает себя в нескольких профессиональных бенчмарках . Claude Opus 4.7 остается моделью верхнего уровня, особенно для SWE-Bench Pro, SWE-Bench Verified, GPQA Diamond и отдельных агентных финансовых задач . DeepSeek V4 — самый заметный кандидат по цене и результату: в BrowseComp он почти догоняет GPT-5.5, а в процитированных API-ценах стоит намного дешевле . Kimi K2.6 по этим данным не стоит ни завышать, ни недооценивать: для честного сравнения нужны прямые сопоставимые бенчмарки и цены .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5 против Claude Opus 4.7, DeepSeek V4 и Kimi K2.6: кто лидирует в тестах»?

GPT 5.5 — самый убедительно подтвержденный универсал: 60 пунктов в доступном фрагменте Artificial Analysis Intelligence Index и 84,4 % в BrowseComp [2][3].

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

DeepSeek V4 — главный кандидат по соотношению цены и результата: 83,4 % в BrowseComp, всего на 1,0 процентного пункта ниже GPT 5.5, при заметно более низких приведенных API ценах [1][3].

Источники

← Back to Trending