ОтчетыОпубликовано28 апр. 2026Last edited 6 мая 20268 источники

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: сравнение бенчмарков

Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond (94.2%) и HLE без инструментов (46.9%), GPT 5.5 — в Terminal Bench 2.0 (82.7%), а GPT 5.5 Pro — в HLE с инструментами (57.2%) и BrowseComp (90.1%); Kimi... Kimi K2.6 выглядит сильным кандидатом для coding задач с доступными весами: карточка модели указы...

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

17K0

Сравнение AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам — GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахИллюстрация к сравнению GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по ключевым AI-бенчмаркам.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond — 94.2% — и HLE без инструментов — 46.9%, GPT 5.5 — в Terminal Bench 2.0 с 82.7%, а GPT 5.5 Pro — в HLE с инструментами и BrowseComp.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2.6 vs GPT-5.5 vs DeepSeek V4](https://www.youtube.com/watch?v=hqPVqQtgWOc). 🤯xCreate 8.4K views • 1 day ago Live Playlist ()Mix (50+)](https://www.youtube.com/watch?v=3928" source context "Kimi K2.6 vs GPT-5.5 vs DeepSeek V4 - YouTube" Reference image 2: visual subject "# GPT-5.5vs Claude Opus 4.7. Get a detailed comparison of AI language modelsOpenAI's GPT-5.5andAnthropic's
openai.com

По доступным опубликованным данным это не гонка с одним абсолютным победителем. Самая сопоставимая таблица покрывает GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 и DeepSeek-V4-Pro-Max; Kimi K2.6 приходится добавлять из отдельной карточки Hugging Face и eval-файла, поэтому его нельзя честно читать как часть того же head-to-head прогона ^[6]^[25]^[37].

Есть ещё одна важная оговорка: DeepSeek в общей таблице указан как DeepSeek-V4-Pro-Max, а отдельные данные по SWE-Bench Verified в другом источнике относятся к DeepSeek V4-Pro ^[6]^[15]. Поэтому корректный вывод звучит так: разные варианты DeepSeek V4 показывают разные результаты в разных источниках, а не одна универсальная цифра для всей линейки.

Быстрый выбор по задаче

Сложное reasoning без инструментов: сначала стоит тестировать Claude Opus 4.7 — он лидирует в GPQA Diamond и Humanity’s Last Exam без инструментов в общей таблице ^[6].
Терминальные agentic-задачи: GPT-5.5 выглядит сильнее всех в Terminal-Bench 2.0: 82.7% против 69.4% у Claude Opus 4.7 и 67.9% у DeepSeek-V4-Pro-Max ^[6].
Reasoning с инструментами и browsing: GPT-5.5 Pro лидирует там, где для него есть данные: 57.2% в HLE с инструментами и 90.1% в BrowseComp ^[6].
Coding и эксперименты с доступными весами: Kimi K2.6 стоит проверять отдельно: карточка модели указывает 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro и 66.7 на Terminal-Bench 2.0 ^[25]^[37]. Источник по Kimi также указывает, что веса доступны на Hugging Face и модель можно запускать через vLLM, SGLang или KTransformers ^[7].
Сценарии, где стоимость важнее первого места: DeepSeek V4 не лидирует в приведённой общей таблице, но источники указывают API-цены $1.74 за 1 млн input-токенов и $3.48 за 1 млн output-токенов против $5/$30 у GPT-5.5 и $5/$25 у Claude Opus 4.7 ^[14]^[19].

Сводная таблица результатов

Бенчмарк	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	Лидер по доступным данным
GPQA Diamond	93.6% ^[6]	н/д	94.2% ^[6]	90.1% у DeepSeek-V4-Pro-Max ^[6]	н/д	Claude Opus 4.7 ^[6]
Humanity’s Last Exam, без инструментов	41.4% ^[6]	43.1% ^[6]	46.9% ^[6]	37.7% у DeepSeek-V4-Pro-Max ^[6]	н/д	Claude Opus 4.7 ^[6]
Humanity’s Last Exam, с инструментами	52.2% ^[6]	57.2% ^[6]	54.7% ^[6]	48.2% у DeepSeek-V4-Pro-Max ^[6]	н/д	GPT-5.5 Pro ^[6]
Terminal-Bench 2.0	82.7% ^[6]	н/д	69.4% ^[6]	67.9% у DeepSeek-V4-Pro-Max ^[6]	66.7 ^[25]^[33]	GPT-5.5 ^[6]
SWE-Bench Pro / SWE Pro	58.6% ^[6]	н/д	64.3% ^[6]	55.4% у DeepSeek-V4-Pro-Max ^[6]	58.6 ^[25]	Claude Opus 4.7 ^[6]
BrowseComp	84.4% ^[6]	90.1% ^[6]	79.3% ^[6]	83.4% у DeepSeek-V4-Pro-Max ^[6]	н/д	GPT-5.5 Pro ^[6]
MCP Atlas / MCPAtlas Public	75.3% ^[6]	н/д	79.1% ^[6]	73.6% у DeepSeek-V4-Pro-Max ^[6]	н/д	Claude Opus 4.7 ^[6]
SWE-Bench Verified	н/д	н/д	87.6% в отдельном сравнении ^[15]	80.6% для DeepSeek V4-Pro, не Pro-Max ^[15]	80.2 ^[25]^[37]	Нет общей строки для всех моделей ^[15]^[25]^[37]

Здесь н/д означает, что значение не было приведено в соответствующем источнике, а не что модель получила ноль.

Reasoning: Claude сильнее без инструментов, GPT-5.5 Pro — с инструментами

В GPQA Diamond разрыв между Claude Opus 4.7 и GPT-5.5 небольшой: 94.2% против 93.6%, тогда как DeepSeek-V4-Pro-Max получает 90.1% ^[6]. В Humanity’s Last Exam без инструментов преимущество Claude заметнее: 46.9% против 41.4% у GPT-5.5, 43.1% у GPT-5.5 Pro и 37.7% у DeepSeek-V4-Pro-Max ^[6].

Но ранжирование меняется, когда в HLE разрешены инструменты. В этой строке GPT-5.5 Pro показывает 57.2%, Claude Opus 4.7 — 54.7%, GPT-5.5 — 52.2%, а DeepSeek-V4-Pro-Max — 48.2% ^[6]. Поэтому точный вывод такой: Claude выглядит сильнее в чистом reasoning без инструментов, а GPT-5.5 Pro — в tool-augmented reasoning по доступной строке HLE ^[6].

Coding и agentic-бенчмарки: главный отрыв у GPT-5.5 в Terminal-Bench

Самый крупный разрыв GPT-5.5 в этой выборке — Terminal-Bench 2.0: 82.7% против 69.4% у Claude Opus 4.7 и 67.9% у DeepSeek-V4-Pro-Max ^[6]. У Kimi K2.6 в карточке модели указано 66.7 на Terminal-Bench 2.0, а отдельный лидерборд LLM Stats также приводит 0.667 для Kimi K2.6 и 0.694 для Claude Opus 4.7 ^[25]^[33]. Это ставит Kimi близко к Claude и DeepSeek в этой конкретной шкале, но заметно ниже GPT-5.5 по общей таблице ^[6]^[25]^[33].

В SWE-Bench Pro / SWE Pro картина другая: Claude Opus 4.7 лидирует с 64.3%, GPT-5.5 получает 58.6%, а DeepSeek-V4-Pro-Max — 55.4% ^[6]. Kimi K2.6 также указан с 58.6 на SWE-Bench Pro в карточке Hugging Face, но это не тот же единый сравнительный прогон, что строка из общей таблицы ^[6]^[25].

SWE-Bench Verified лучше не превращать в общий рейтинг всех четырёх моделей. Для Kimi K2.6 есть значение 80.2 в карточке модели и eval-файле ^[25]^[37]. Отдельный обзор DeepSeek V4 сообщает 87.6% для Claude Opus 4.7 и 80.6% для DeepSeek V4-Pro, но не даёт полной строки для GPT-5.5 и относится к V4-Pro, а не к V4-Pro-Max ^[15].

По моделям: где каждая выглядит сильнее

GPT-5.5 и GPT-5.5 Pro

GPT-5.5 лучше всего выделяется в Terminal-Bench 2.0: 82.7% — лучший результат среди моделей в общей таблице по этой строке ^[6]. GPT-5.5 Pro указан не во всех строках, но там, где он есть, выходит на первое место: 57.2% в HLE с инструментами и 90.1% в BrowseComp ^[6].

Практический вывод: GPT-5.5 стоит первым проверять на терминальных agentic-сценариях, а GPT-5.5 Pro — на задачах, где важны инструменты, browsing или reasoning с внешними действиями ^[6].

Claude Opus 4.7

Claude Opus 4.7 лидирует в нескольких строках общей таблицы: 94.2% в GPQA Diamond, 46.9% в HLE без инструментов, 64.3% в SWE-Bench Pro / SWE Pro и 79.1% в MCP Atlas / MCPAtlas Public ^[6]. При этом Claude уступает GPT-5.5 в Terminal-Bench 2.0 и GPT-5.5 Pro в HLE с инструментами и BrowseComp ^[6].

Если нужна первая модель-кандидат для сложного reasoning без инструментов или coding-задач, близких к SWE-Bench Pro, Claude Opus 4.7 выглядит наиболее сильным вариантом по этим строкам ^[6].

Kimi K2.6

Kimi K2.6 нельзя строго ранжировать против всех остальных по единому прогону, потому что его цифры в этой статье идут из отдельной карточки Hugging Face и eval-файла ^[25]^[37]. Но как coding-кандидат он выглядит заметно: карточка модели указывает 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro, 76.7 на SWE-Bench Multilingual, 66.7 на Terminal-Bench 2.0 и 73.1 на OSWorld-Verified ^[25]^[37].

Операционно Kimi интересен тем, что источник указывает доступность весов на Hugging Face и запуск через vLLM, SGLang или KTransformers ^[7]. Это не делает Kimi победителем общей benchmark-таблицы, но делает его отдельным кандидатом для команд, которым важны self-hosted или локальные эксперименты ^[7]^[25].

DeepSeek V4

В общей таблице DeepSeek представлен вариантом DeepSeek-V4-Pro-Max ^[6]. В приведённых строках он не занимает первое место: 90.1% в GPQA Diamond, 37.7% в HLE без инструментов, 48.2% в HLE с инструментами, 67.9% в Terminal-Bench 2.0, 55.4% в SWE-Bench Pro / SWE Pro, 83.4% в BrowseComp и 73.6% в MCP Atlas / MCPAtlas Public ^[6].

Сильная сторона DeepSeek V4 в этой подборке — не абсолютное лидерство, а цена при достаточной для части сценариев производительности. Mashable и DataCamp приводят API-цены DeepSeek V4 на уровне $1.74 за 1 млн input-токенов и $3.48 за 1 млн output-токенов; для сравнения, те же источники указывают $5/$30 для GPT-5.5 и $5/$25 для Claude Opus 4.7 ^[14]^[19]. Если бюджет — главный ограничитель, DeepSeek V4 стоит включить в собственный eval, но не объявлять benchmark-лидером по этой таблице ^[6]^[14]^[19].

Главные ограничения сравнения

Нет одного общего прогона для всех четырёх моделей во всех строках. Общая таблица покрывает GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 и DeepSeek-V4-Pro-Max, а Kimi K2.6 добавлен по отдельным источникам ^[6]^[25]^[37].
DeepSeek V4 обозначает разные варианты в разных источниках. В общей таблице указан DeepSeek-V4-Pro-Max, а отдельная цифра SWE-Bench Verified относится к DeepSeek V4-Pro ^[6]^[15].
GPT-5.5 Pro есть не везде. В общей таблице Pro-колонка приведена только для некоторых бенчмарков, поэтому нельзя автоматически переносить его результат на строки, где он не указан ^[6].
Kimi K2.6 лучше проверять собственными evals. Его Hugging Face-результаты полезны, но они не взяты из той же общей таблицы, что данные по GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max ^[6]^[25]^[37].

Итог

Если смотреть только на сопоставимые строки общей таблицы, Claude Opus 4.7 выигрывает GPQA Diamond, Humanity’s Last Exam без инструментов, SWE-Bench Pro и MCP Atlas; GPT-5.5 выигрывает Terminal-Bench 2.0; GPT-5.5 Pro выигрывает HLE с инструментами и BrowseComp ^[6]. Kimi K2.6 выглядит сильным coding-кандидатом с доступными весами по отдельным данным Hugging Face, но его нельзя строго ранжировать против остальных без общего прогона ^[7]^[25]^[37]. DeepSeek V4 в этих benchmark-строках не лидер, зато благодаря более низким опубликованным API-ценам остаётся моделью, которую разумно отдельно проверить в cost-sensitive сценариях ^[6]^[14]^[19].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond (94.2%) и HLE без инструментов (46.9%), GPT 5.5 — в Terminal Bench 2.0 (82.7%), а GPT 5.5 Pro — в HLE с инструментами (57.2%) и BrowseComp (90.1%); Kimi...
Kimi K2.6 выглядит сильным кандидатом для coding задач с доступными весами: карточка модели указывает 80.2 на SWE Bench Verified, 58.6 на SWE Bench Pro и 66.7 на Terminal Bench 2.0 [7][25][37].
DeepSeek V4 в приведённых benchmark строках не занимает первое место, но источники указывают более низкие API цены: $1.74 за 1 млн input токенов и $3.48 за 1 млн output токенов против $5/$30 у GPT 5.5 и $5/$25 у Claud...

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: сравнение бенчмарков»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

DeepSeek V4 в приведённых benchmark строках не занимает первое место, но источники указывают более низкие API цены: $1.74 за 1 млн input токенов и $3.48 за 1 млн output токенов против $5/$30 у GPT 5.5 и $5/$25 у Claud...

Какую связанную тему мне следует изучить дальше?

Продолжайте с «Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Northwest и Southeast timber: почему ответ — «larger; larger»».

Открыть связанную страницу

Продолжайте свое исследование

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года

Claude Opus 4.7 против GPT-5.5, DeepSeek V4 и Kimi K2.6: кто сильнее по бенчмаркам

Northwest и Southeast timber: почему ответ — «larger; larger»

Почему при большей заменяемости Northwest и Southeast timber обе эластичности становятся larger

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek против OpenAI, Claude, Gemini и Grok: решат цена и доверие, а не рейтинги

Сможет ли DeepSeek обойти OpenAI, Claude, Gemini и Grok?

Illustration of an AI coding agent connected to cloud database and backup systems

Инцидент PocketOS: что на самом деле показывает история с Claude, Cursor и удалённой базой

Удаление базы PocketOS: урок не в том, что «ИИ сошёл с ума»

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

Изучите показатели GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 в бенчмарках. Пожалуйста, сделайте отчёт удобным для чтения.

Studio Global AI26 апр. 202640 источники

Цитируемый ответ

Я нашёл сопоставимые данные не по всем четырём моделям в одном и том же независимом тестовом прогоне. Поэтому ниже — аккуратная сводка: GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max сравниваются по одной опубликованной таблице, а Kimi K2.6 добавлен по отдельной карточке модели; прямое сравнение с Kimi нужно считать ориентировочным, а не строго «один к одному» ^[9]^[15].

Key findings

Claude Opus 4.7 выглядит сильнейшим в GPQA Diamond: 94.2% против 93.6% у GPT-5.5 и 90.1% у DeepSeek-V4-Pro-Max ^[9].
Claude Opus 4.7 также лидирует в Humanity’s Last Exam без инструментов: 46.9% против 41.4% у GPT-5.5, 43.1% у GPT-5.5 Pro и 37.7% у DeepSeek-V4-Pro-Max ^[9].
GPT-5.5 Pro лидирует в Humanity’s Last Exam с инструментами: 57.2% против 54.7% у Claude Opus 4.7, 52.2% у GPT-5.5 и 48.2% у DeepSeek-V4-Pro-Max ^[9].
GPT-5.5 заметно впереди в Terminal-Bench 2.0: 82.7% против 69.4% у Claude Opus 4.7, 67.9% у DeepSeek-V4-Pro-Max и 66.7% у Kimi K2.6 ^[9]^[15].
Kimi K2.6 выглядит очень сильной открытой/доступной по весам моделью для coding-бенчмарков: карточка модели указывает 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro, 76.7 на SWE-Bench Multilingual и 66.7 на Terminal-Bench 2.0 ^[15].
DeepSeek-V4-Pro-Max в найденной таблице стабильно ниже GPT-5.5 и Claude Opus 4.7 по GPQA, HLE и Terminal-Bench 2.0, но остаётся близко к Claude в Terminal-Bench 2.0: 67.9% против 69.4% ^[9].

Сводная таблица

Бенчмарк	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek-V4-Pro-Max	Kimi K2.6	Кто впереди
GPQA Diamond	93.6% ^[9]	н/д	94.2% ^[9]	90.1% ^[9]	н/д	Claude Opus 4.7
Humanity’s Last Exam, без инструментов	41.4% ^[9]	43.1% ^[9]	46.9% ^[9]	37.7% ^[9]	н/д	Claude Opus 4.7
Humanity’s Last Exam, с инструментами	52.2% ^[9]	57.2% ^[9]	54.7% ^[9]	48.2% ^[9]	н/д	GPT-5.5 Pro
Terminal-Bench 2.0	82.7% ^[9]	н/д	69.4% ^[9]	67.9% ^[9]	66.7 ^[15]	GPT-5.5
SWE-Bench Verified	н/д	н/д	н/д	н/д	80.2 ^[15]	недостаточно данных
SWE-Bench Pro	н/д	н/д	н/д	н/д	58.6 ^[15]	недостаточно данных
SWE-Bench Multilingual	н/д	н/д	н/д	н/д	76.7 ^[15]	недостаточно данных

По моделям

GPT-5.5

GPT-5.5 показывает лучший найденный результат в Terminal-Bench 2.0 среди сопоставленных моделей: 82.7% ^[9].
GPT-5.5 уступает Claude Opus 4.7 в GPQA Diamond: 93.6% против 94.2% ^[9].
GPT-5.5 уступает Claude Opus 4.7 в Humanity’s Last Exam без инструментов: 41.4% против 46.9% ^[9].
GPT-5.5 Pro, отдельный более сильный режим/вариант в найденной таблице, выходит на первое место в HLE с инструментами: 57.2% ^[9].

Claude Opus 4.7

Claude Opus 4.7 — лидер по GPQA Diamond среди моделей в найденной таблице: 94.2% ^[9].
Claude Opus 4.7 — лидер по HLE без инструментов: 46.9% ^[9].
Claude Opus 4.7 занимает второе место в HLE с инструментами после GPT-5.5 Pro: 54.7% против 57.2% ^[9].
В Terminal-Bench 2.0 Claude Opus 4.7 значительно уступает GPT-5.5: 69.4% против 82.7% ^[9].

Kimi K2.6

Kimi K2.6 имеет сильный профиль в coding-задачах: 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro и 76.7 на SWE-Bench Multilingual ^[15].
Kimi K2.6 набирает 66.7 в Terminal-Bench 2.0, что близко к DeepSeek-V4-Pro-Max 67.9 и Claude Opus 4.7 69.4, но заметно ниже GPT-5.5 82.7 ^[9]^[15].
Kimi K2.6 в найденных источниках описывается как новая сильная open-weights модель, а её карточка модели приводит отдельную таблицу результатов по coding и agentic-бенчмаркам ^[14]^[15].

DeepSeek V4

В найденной сопоставимой таблице указана именно версия DeepSeek-V4-Pro-Max, поэтому выводы по DeepSeek V4 лучше читать как выводы по этой конкретной версии, а не обязательно по всей линейке V4 ^[9].
DeepSeek-V4-Pro-Max показывает 90.1% на GPQA Diamond, что ниже GPT-5.5 93.6% и Claude Opus 4.7 94.2% ^[9].
DeepSeek-V4-Pro-Max показывает 37.7% на HLE без инструментов и 48.2% на HLE с инструментами, что ниже GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 в той же таблице ^[9].
В Terminal-Bench 2.0 DeepSeek-V4-Pro-Max набирает 67.9%, что почти на уровне Claude Opus 4.7 69.4%, но существенно ниже GPT-5.5 82.7% ^[9].

Evidence notes

Самая полезная найденная таблица сравнивает DeepSeek-V4-Pro-Max, GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 по GPQA Diamond, HLE и Terminal-Bench 2.0 ^[9].
Для Kimi K2.6 наиболее конкретные найденные цифры идут из карточки модели: Terminal-Bench 2.0 — 66.7, SWE-Bench Pro — 58.6, SWE-Bench Multilingual — 76.7, SWE-Bench Verified — 80.2 и OSWorld-Verified — 73.1 ^[15].
Источник по GPT-5.5 и Claude Opus 4.7 также указывает даты релиза: GPT-5.5 — 23 апреля 2026 года, Claude Opus 4.7 — 16 апреля 2026 года ^[10].

Limitations / uncertainty

Insufficient evidence для полностью строгого сравнения всех четырёх моделей в одном независимом прогоне с одинаковыми настройками, потому что Kimi K2.6 не присутствует в основной найденной таблице вместе с GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max ^[9]^[15].
Insufficient evidence для уверенного сравнения всех четырёх моделей по SWE-Bench Verified, потому что найденные конкретные SWE-Bench-цифры относятся к Kimi K2.6, а сопоставимые значения для GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max в доступных фрагментах не были полно представлены ^[15].
Результаты по DeepSeek относятся к варианту DeepSeek-V4-Pro-Max, поэтому их не следует автоматически переносить на все версии DeepSeek V4 ^[9].

Summary

Если смотреть только на найденные сопоставимые бенчмарки, Claude Opus 4.7 сильнее в GPQA и HLE без инструментов, GPT-5.5/GPT-5.5 Pro сильнее в Terminal-Bench 2.0 и HLE с инструментами, а DeepSeek-V4-Pro-Max держится близко к Claude в Terminal-Bench, но уступает в reasoning-тестах ^[9]. Kimi K2.6 выглядит особенно интересной для coding-сценариев благодаря 80.2 на SWE-Bench Verified и 58.6 на SWE-Bench Pro, но её нельзя строго ранжировать против всех трёх остальных моделей без единого общего тестового прогона ^[15].

Источники

[6] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
BenchmarkDeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, where shownClaude Opus 4.7Best result among these GPQA Diamond90.1%93.6%—94.2%Claude Opus 4.7 Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 Humanity’s Last Exam, with tools48.2%52.2%57.2%54...
[7] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[14] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[15] DeepSeek V4 Preview: The Complete 2026 Guide - o-mega | AIo-mega.ai
7. Head-to-Head: DeepSeek V4 vs Claude Opus 4.7 Claude Opus 4.7, released just eight days before DeepSeek V4 on April 16, represents Anthropic's most capable model and the current leader in agentic coding tasks. The comparison with V4-Pro reveals a more nua...
[19] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[25] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
OSWorld-Verified 73.1 75.0 72.7 63.3 Coding Terminal-Bench 2.0 (Terminus-2) 66.7 65.4 65.4 68.5 50.8 SWE-Bench Pro 58.6 57.7 53.4 54.2 50.7 SWE-Bench Multilingual 76.7 77.8 76.9 73.0 SWE-Bench Verified 80.2 80.8 80.6 76.8 SciCode 52.2 56.6 51.9 58.9 48.7 OJ...
[33] Terminal-Bench 2.0 Leaderboardllm-stats.com
Model Score Size Context Cost License --- --- --- 1 Anthropic Claude Mythos Preview Anthropic 0.820 — — $25.00 / $125.00 2 OpenAI GPT-5.3 Codex OpenAI 0.773 — 400K $1.75 / $14.00 3 OpenAI GPT-5.4 OpenAI 0.751 — 1.0M $2.50 / $15.00 4 Anthropic Claude Opus 4....
[37] .eval_results/swe_bench_verified.yaml · moonshotai/Kimi-K2.6 at mainhuggingface.co
Hugging Face's logo moonshotai / Kimi-K2.6 like 1.04k Follow Moonshot AI 9.2k bigeagle's picture --- - dataset: id: SWE-bench/SWE-bench\ Verified task\ id: swe\ bench\ %\ resolved value: 80.2 date: '2026-04-20' source: url: name: Model Card user: SaylorTwift

Популярное в «Открыть»

ОтчетыОпубликовано28 апр. 2026Last edited 6 мая 20268 источники

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: сравнение бенчмарков

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

17K0

Быстрый выбор по задаче

Сложное reasoning без инструментов: сначала стоит тестировать Claude Opus 4.7 — он лидирует в GPQA Diamond и Humanity’s Last Exam без инструментов в общей таблице ^[6].
Терминальные agentic-задачи: GPT-5.5 выглядит сильнее всех в Terminal-Bench 2.0: 82.7% против 69.4% у Claude Opus 4.7 и 67.9% у DeepSeek-V4-Pro-Max ^[6].
Reasoning с инструментами и browsing: GPT-5.5 Pro лидирует там, где для него есть данные: 57.2% в HLE с инструментами и 90.1% в BrowseComp ^[6].
Coding и эксперименты с доступными весами: Kimi K2.6 стоит проверять отдельно: карточка модели указывает 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro и 66.7 на Terminal-Bench 2.0 ^[25]^[37]. Источник по Kimi также указывает, что веса доступны на Hugging Face и модель можно запускать через vLLM, SGLang или KTransformers ^[7].
Сценарии, где стоимость важнее первого места: DeepSeek V4 не лидирует в приведённой общей таблице, но источники указывают API-цены $1.74 за 1 млн input-токенов и $3.48 за 1 млн output-токенов против $5/$30 у GPT-5.5 и $5/$25 у Claude Opus 4.7 ^[14]^[19].

Сводная таблица результатов

Бенчмарк	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	Лидер по доступным данным
GPQA Diamond	93.6% ^[6]	н/д	94.2% ^[6]	90.1% у DeepSeek-V4-Pro-Max ^[6]	н/д	Claude Opus 4.7 ^[6]
Humanity’s Last Exam, без инструментов	41.4% ^[6]	43.1% ^[6]	46.9% ^[6]	37.7% у DeepSeek-V4-Pro-Max ^[6]	н/д	Claude Opus 4.7 ^[6]
Humanity’s Last Exam, с инструментами	52.2% ^[6]	57.2% ^[6]	54.7% ^[6]	48.2% у DeepSeek-V4-Pro-Max ^[6]	н/д	GPT-5.5 Pro ^[6]
Terminal-Bench 2.0	82.7% ^[6]	н/д	69.4% ^[6]	67.9% у DeepSeek-V4-Pro-Max ^[6]	66.7 ^[25]^[33]	GPT-5.5 ^[6]
SWE-Bench Pro / SWE Pro	58.6% ^[6]	н/д	64.3% ^[6]	55.4% у DeepSeek-V4-Pro-Max ^[6]	58.6 ^[25]	Claude Opus 4.7 ^[6]
BrowseComp	84.4% ^[6]	90.1% ^[6]	79.3% ^[6]	83.4% у DeepSeek-V4-Pro-Max ^[6]	н/д	GPT-5.5 Pro ^[6]
MCP Atlas / MCPAtlas Public	75.3% ^[6]	н/д	79.1% ^[6]	73.6% у DeepSeek-V4-Pro-Max ^[6]	н/д	Claude Opus 4.7 ^[6]
SWE-Bench Verified	н/д	н/д	87.6% в отдельном сравнении ^[15]	80.6% для DeepSeek V4-Pro, не Pro-Max ^[15]	80.2 ^[25]^[37]	Нет общей строки для всех моделей ^[15]^[25]^[37]

Здесь н/д означает, что значение не было приведено в соответствующем источнике, а не что модель получила ноль.

Reasoning: Claude сильнее без инструментов, GPT-5.5 Pro — с инструментами

Coding и agentic-бенчмарки: главный отрыв у GPT-5.5 в Terminal-Bench

По моделям: где каждая выглядит сильнее

GPT-5.5 и GPT-5.5 Pro

Claude Opus 4.7

Kimi K2.6

DeepSeek V4

Главные ограничения сравнения

Нет одного общего прогона для всех четырёх моделей во всех строках. Общая таблица покрывает GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 и DeepSeek-V4-Pro-Max, а Kimi K2.6 добавлен по отдельным источникам ^[6]^[25]^[37].
DeepSeek V4 обозначает разные варианты в разных источниках. В общей таблице указан DeepSeek-V4-Pro-Max, а отдельная цифра SWE-Bench Verified относится к DeepSeek V4-Pro ^[6]^[15].
GPT-5.5 Pro есть не везде. В общей таблице Pro-колонка приведена только для некоторых бенчмарков, поэтому нельзя автоматически переносить его результат на строки, где он не указан ^[6].
Kimi K2.6 лучше проверять собственными evals. Его Hugging Face-результаты полезны, но они не взяты из той же общей таблицы, что данные по GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max ^[6]^[25]^[37].

Итог

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond (94.2%) и HLE без инструментов (46.9%), GPT 5.5 — в Terminal Bench 2.0 (82.7%), а GPT 5.5 Pro — в HLE с инструментами (57.2%) и BrowseComp (90.1%); Kimi...
Kimi K2.6 выглядит сильным кандидатом для coding задач с доступными весами: карточка модели указывает 80.2 на SWE Bench Verified, 58.6 на SWE Bench Pro и 66.7 на Terminal Bench 2.0 [7][25][37].
DeepSeek V4 в приведённых benchmark строках не занимает первое место, но источники указывают более низкие API цены: $1.74 за 1 млн input токенов и $3.48 за 1 млн output токенов против $5/$30 у GPT 5.5 и $5/$25 у Claud...

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: сравнение бенчмарков»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Northwest и Southeast timber: почему ответ — «larger; larger»».

Открыть связанную страницу

Продолжайте свое исследование

Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года

Claude Opus 4.7 против GPT-5.5, DeepSeek V4 и Kimi K2.6: кто сильнее по бенчмаркам

Northwest и Southeast timber: почему ответ — «larger; larger»

Почему при большей заменяемости Northwest и Southeast timber обе эластичности становятся larger

DeepSeek против OpenAI, Claude, Gemini и Grok: решат цена и доверие, а не рейтинги

Сможет ли DeepSeek обойти OpenAI, Claude, Gemini и Grok?

Инцидент PocketOS: что на самом деле показывает история с Claude, Cursor и удалённой базой

Удаление базы PocketOS: урок не в том, что «ИИ сошёл с ума»

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

Изучите показатели GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 в бенчмарках. Пожалуйста, сделайте отчёт удобным для чтения.

Studio Global AI26 апр. 202640 источники

Цитируемый ответ

Key findings

Claude Opus 4.7 выглядит сильнейшим в GPQA Diamond: 94.2% против 93.6% у GPT-5.5 и 90.1% у DeepSeek-V4-Pro-Max ^[9].
Claude Opus 4.7 также лидирует в Humanity’s Last Exam без инструментов: 46.9% против 41.4% у GPT-5.5, 43.1% у GPT-5.5 Pro и 37.7% у DeepSeek-V4-Pro-Max ^[9].
GPT-5.5 Pro лидирует в Humanity’s Last Exam с инструментами: 57.2% против 54.7% у Claude Opus 4.7, 52.2% у GPT-5.5 и 48.2% у DeepSeek-V4-Pro-Max ^[9].
GPT-5.5 заметно впереди в Terminal-Bench 2.0: 82.7% против 69.4% у Claude Opus 4.7, 67.9% у DeepSeek-V4-Pro-Max и 66.7% у Kimi K2.6 ^[9]^[15].
Kimi K2.6 выглядит очень сильной открытой/доступной по весам моделью для coding-бенчмарков: карточка модели указывает 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro, 76.7 на SWE-Bench Multilingual и 66.7 на Terminal-Bench 2.0 ^[15].
DeepSeek-V4-Pro-Max в найденной таблице стабильно ниже GPT-5.5 и Claude Opus 4.7 по GPQA, HLE и Terminal-Bench 2.0, но остаётся близко к Claude в Terminal-Bench 2.0: 67.9% против 69.4% ^[9].

Сводная таблица

Бенчмарк	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek-V4-Pro-Max	Kimi K2.6	Кто впереди
GPQA Diamond	93.6% ^[9]	н/д	94.2% ^[9]	90.1% ^[9]	н/д	Claude Opus 4.7
Humanity’s Last Exam, без инструментов	41.4% ^[9]	43.1% ^[9]	46.9% ^[9]	37.7% ^[9]	н/д	Claude Opus 4.7
Humanity’s Last Exam, с инструментами	52.2% ^[9]	57.2% ^[9]	54.7% ^[9]	48.2% ^[9]	н/д	GPT-5.5 Pro
Terminal-Bench 2.0	82.7% ^[9]	н/д	69.4% ^[9]	67.9% ^[9]	66.7 ^[15]	GPT-5.5
SWE-Bench Verified	н/д	н/д	н/д	н/д	80.2 ^[15]	недостаточно данных
SWE-Bench Pro	н/д	н/д	н/д	н/д	58.6 ^[15]	недостаточно данных
SWE-Bench Multilingual	н/д	н/д	н/д	н/д	76.7 ^[15]	недостаточно данных

По моделям

GPT-5.5

GPT-5.5 показывает лучший найденный результат в Terminal-Bench 2.0 среди сопоставленных моделей: 82.7% ^[9].
GPT-5.5 уступает Claude Opus 4.7 в GPQA Diamond: 93.6% против 94.2% ^[9].
GPT-5.5 уступает Claude Opus 4.7 в Humanity’s Last Exam без инструментов: 41.4% против 46.9% ^[9].
GPT-5.5 Pro, отдельный более сильный режим/вариант в найденной таблице, выходит на первое место в HLE с инструментами: 57.2% ^[9].

Claude Opus 4.7

Claude Opus 4.7 — лидер по GPQA Diamond среди моделей в найденной таблице: 94.2% ^[9].
Claude Opus 4.7 — лидер по HLE без инструментов: 46.9% ^[9].
Claude Opus 4.7 занимает второе место в HLE с инструментами после GPT-5.5 Pro: 54.7% против 57.2% ^[9].
В Terminal-Bench 2.0 Claude Opus 4.7 значительно уступает GPT-5.5: 69.4% против 82.7% ^[9].

Kimi K2.6

Kimi K2.6 имеет сильный профиль в coding-задачах: 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro и 76.7 на SWE-Bench Multilingual ^[15].
Kimi K2.6 набирает 66.7 в Terminal-Bench 2.0, что близко к DeepSeek-V4-Pro-Max 67.9 и Claude Opus 4.7 69.4, но заметно ниже GPT-5.5 82.7 ^[9]^[15].
Kimi K2.6 в найденных источниках описывается как новая сильная open-weights модель, а её карточка модели приводит отдельную таблицу результатов по coding и agentic-бенчмаркам ^[14]^[15].

DeepSeek V4

В найденной сопоставимой таблице указана именно версия DeepSeek-V4-Pro-Max, поэтому выводы по DeepSeek V4 лучше читать как выводы по этой конкретной версии, а не обязательно по всей линейке V4 ^[9].
DeepSeek-V4-Pro-Max показывает 90.1% на GPQA Diamond, что ниже GPT-5.5 93.6% и Claude Opus 4.7 94.2% ^[9].
DeepSeek-V4-Pro-Max показывает 37.7% на HLE без инструментов и 48.2% на HLE с инструментами, что ниже GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 в той же таблице ^[9].
В Terminal-Bench 2.0 DeepSeek-V4-Pro-Max набирает 67.9%, что почти на уровне Claude Opus 4.7 69.4%, но существенно ниже GPT-5.5 82.7% ^[9].

Evidence notes

Самая полезная найденная таблица сравнивает DeepSeek-V4-Pro-Max, GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 по GPQA Diamond, HLE и Terminal-Bench 2.0 ^[9].
Для Kimi K2.6 наиболее конкретные найденные цифры идут из карточки модели: Terminal-Bench 2.0 — 66.7, SWE-Bench Pro — 58.6, SWE-Bench Multilingual — 76.7, SWE-Bench Verified — 80.2 и OSWorld-Verified — 73.1 ^[15].
Источник по GPT-5.5 и Claude Opus 4.7 также указывает даты релиза: GPT-5.5 — 23 апреля 2026 года, Claude Opus 4.7 — 16 апреля 2026 года ^[10].

Limitations / uncertainty

Insufficient evidence для полностью строгого сравнения всех четырёх моделей в одном независимом прогоне с одинаковыми настройками, потому что Kimi K2.6 не присутствует в основной найденной таблице вместе с GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max ^[9]^[15].
Insufficient evidence для уверенного сравнения всех четырёх моделей по SWE-Bench Verified, потому что найденные конкретные SWE-Bench-цифры относятся к Kimi K2.6, а сопоставимые значения для GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max в доступных фрагментах не были полно представлены ^[15].
Результаты по DeepSeek относятся к варианту DeepSeek-V4-Pro-Max, поэтому их не следует автоматически переносить на все версии DeepSeek V4 ^[9].

Summary

Источники

[6] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
BenchmarkDeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, where shownClaude Opus 4.7Best result among these GPQA Diamond90.1%93.6%—94.2%Claude Opus 4.7 Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 Humanity’s Last Exam, with tools48.2%52.2%57.2%54...
[7] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[14] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[15] DeepSeek V4 Preview: The Complete 2026 Guide - o-mega | AIo-mega.ai
7. Head-to-Head: DeepSeek V4 vs Claude Opus 4.7 Claude Opus 4.7, released just eight days before DeepSeek V4 on April 16, represents Anthropic's most capable model and the current leader in agentic coding tasks. The comparison with V4-Pro reveals a more nua...
[19] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[25] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
OSWorld-Verified 73.1 75.0 72.7 63.3 Coding Terminal-Bench 2.0 (Terminus-2) 66.7 65.4 65.4 68.5 50.8 SWE-Bench Pro 58.6 57.7 53.4 54.2 50.7 SWE-Bench Multilingual 76.7 77.8 76.9 73.0 SWE-Bench Verified 80.2 80.8 80.6 76.8 SciCode 52.2 56.6 51.9 58.9 48.7 OJ...
[33] Terminal-Bench 2.0 Leaderboardllm-stats.com
Model Score Size Context Cost License --- --- --- 1 Anthropic Claude Mythos Preview Anthropic 0.820 — — $25.00 / $125.00 2 OpenAI GPT-5.3 Codex OpenAI 0.773 — 400K $1.75 / $14.00 3 OpenAI GPT-5.4 OpenAI 0.751 — 1.0M $2.50 / $15.00 4 Anthropic Claude Opus 4....
[37] .eval_results/swe_bench_verified.yaml · moonshotai/Kimi-K2.6 at mainhuggingface.co
Hugging Face's logo moonshotai / Kimi-K2.6 like 1.04k Follow Moonshot AI 9.2k bigeagle's picture --- - dataset: id: SWE-bench/SWE-bench\ Verified task\ id: swe\ bench\ %\ resolved value: 80.2 date: '2026-04-20' source: url: name: Model Card user: SaylorTwift

Популярное в «Открыть»

ОтчетыОпубликовано28 апр. 2026Last edited 6 мая 20268 источники

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: сравнение бенчмарков

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

17K0

Быстрый выбор по задаче

Сложное reasoning без инструментов: сначала стоит тестировать Claude Opus 4.7 — он лидирует в GPQA Diamond и Humanity’s Last Exam без инструментов в общей таблице ^[6].
Терминальные agentic-задачи: GPT-5.5 выглядит сильнее всех в Terminal-Bench 2.0: 82.7% против 69.4% у Claude Opus 4.7 и 67.9% у DeepSeek-V4-Pro-Max ^[6].
Reasoning с инструментами и browsing: GPT-5.5 Pro лидирует там, где для него есть данные: 57.2% в HLE с инструментами и 90.1% в BrowseComp ^[6].
Coding и эксперименты с доступными весами: Kimi K2.6 стоит проверять отдельно: карточка модели указывает 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro и 66.7 на Terminal-Bench 2.0 ^[25]^[37]. Источник по Kimi также указывает, что веса доступны на Hugging Face и модель можно запускать через vLLM, SGLang или KTransformers ^[7].
Сценарии, где стоимость важнее первого места: DeepSeek V4 не лидирует в приведённой общей таблице, но источники указывают API-цены $1.74 за 1 млн input-токенов и $3.48 за 1 млн output-токенов против $5/$30 у GPT-5.5 и $5/$25 у Claude Opus 4.7 ^[14]^[19].

Сводная таблица результатов

Бенчмарк	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	Лидер по доступным данным
GPQA Diamond	93.6% ^[6]	н/д	94.2% ^[6]	90.1% у DeepSeek-V4-Pro-Max ^[6]	н/д	Claude Opus 4.7 ^[6]
Humanity’s Last Exam, без инструментов	41.4% ^[6]	43.1% ^[6]	46.9% ^[6]	37.7% у DeepSeek-V4-Pro-Max ^[6]	н/д	Claude Opus 4.7 ^[6]
Humanity’s Last Exam, с инструментами	52.2% ^[6]	57.2% ^[6]	54.7% ^[6]	48.2% у DeepSeek-V4-Pro-Max ^[6]	н/д	GPT-5.5 Pro ^[6]
Terminal-Bench 2.0	82.7% ^[6]	н/д	69.4% ^[6]	67.9% у DeepSeek-V4-Pro-Max ^[6]	66.7 ^[25]^[33]	GPT-5.5 ^[6]
SWE-Bench Pro / SWE Pro	58.6% ^[6]	н/д	64.3% ^[6]	55.4% у DeepSeek-V4-Pro-Max ^[6]	58.6 ^[25]	Claude Opus 4.7 ^[6]
BrowseComp	84.4% ^[6]	90.1% ^[6]	79.3% ^[6]	83.4% у DeepSeek-V4-Pro-Max ^[6]	н/д	GPT-5.5 Pro ^[6]
MCP Atlas / MCPAtlas Public	75.3% ^[6]	н/д	79.1% ^[6]	73.6% у DeepSeek-V4-Pro-Max ^[6]	н/д	Claude Opus 4.7 ^[6]
SWE-Bench Verified	н/д	н/д	87.6% в отдельном сравнении ^[15]	80.6% для DeepSeek V4-Pro, не Pro-Max ^[15]	80.2 ^[25]^[37]	Нет общей строки для всех моделей ^[15]^[25]^[37]

Здесь н/д означает, что значение не было приведено в соответствующем источнике, а не что модель получила ноль.

Reasoning: Claude сильнее без инструментов, GPT-5.5 Pro — с инструментами

Coding и agentic-бенчмарки: главный отрыв у GPT-5.5 в Terminal-Bench

По моделям: где каждая выглядит сильнее

GPT-5.5 и GPT-5.5 Pro

Claude Opus 4.7

Kimi K2.6

DeepSeek V4

Главные ограничения сравнения

Нет одного общего прогона для всех четырёх моделей во всех строках. Общая таблица покрывает GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 и DeepSeek-V4-Pro-Max, а Kimi K2.6 добавлен по отдельным источникам ^[6]^[25]^[37].
DeepSeek V4 обозначает разные варианты в разных источниках. В общей таблице указан DeepSeek-V4-Pro-Max, а отдельная цифра SWE-Bench Verified относится к DeepSeek V4-Pro ^[6]^[15].
GPT-5.5 Pro есть не везде. В общей таблице Pro-колонка приведена только для некоторых бенчмарков, поэтому нельзя автоматически переносить его результат на строки, где он не указан ^[6].
Kimi K2.6 лучше проверять собственными evals. Его Hugging Face-результаты полезны, но они не взяты из той же общей таблицы, что данные по GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max ^[6]^[25]^[37].

Итог

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond (94.2%) и HLE без инструментов (46.9%), GPT 5.5 — в Terminal Bench 2.0 (82.7%), а GPT 5.5 Pro — в HLE с инструментами (57.2%) и BrowseComp (90.1%); Kimi...
Kimi K2.6 выглядит сильным кандидатом для coding задач с доступными весами: карточка модели указывает 80.2 на SWE Bench Verified, 58.6 на SWE Bench Pro и 66.7 на Terminal Bench 2.0 [7][25][37].
DeepSeek V4 в приведённых benchmark строках не занимает первое место, но источники указывают более низкие API цены: $1.74 за 1 млн input токенов и $3.48 за 1 млн output токенов против $5/$30 у GPT 5.5 и $5/$25 у Claud...

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: сравнение бенчмарков»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Northwest и Southeast timber: почему ответ — «larger; larger»».

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

Изучите показатели GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 в бенчмарках. Пожалуйста, сделайте отчёт удобным для чтения.

Studio Global AI26 апр. 202640 источники

Цитируемый ответ

Key findings

Claude Opus 4.7 выглядит сильнейшим в GPQA Diamond: 94.2% против 93.6% у GPT-5.5 и 90.1% у DeepSeek-V4-Pro-Max ^[9].
Claude Opus 4.7 также лидирует в Humanity’s Last Exam без инструментов: 46.9% против 41.4% у GPT-5.5, 43.1% у GPT-5.5 Pro и 37.7% у DeepSeek-V4-Pro-Max ^[9].
GPT-5.5 Pro лидирует в Humanity’s Last Exam с инструментами: 57.2% против 54.7% у Claude Opus 4.7, 52.2% у GPT-5.5 и 48.2% у DeepSeek-V4-Pro-Max ^[9].
GPT-5.5 заметно впереди в Terminal-Bench 2.0: 82.7% против 69.4% у Claude Opus 4.7, 67.9% у DeepSeek-V4-Pro-Max и 66.7% у Kimi K2.6 ^[9]^[15].
Kimi K2.6 выглядит очень сильной открытой/доступной по весам моделью для coding-бенчмарков: карточка модели указывает 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro, 76.7 на SWE-Bench Multilingual и 66.7 на Terminal-Bench 2.0 ^[15].
DeepSeek-V4-Pro-Max в найденной таблице стабильно ниже GPT-5.5 и Claude Opus 4.7 по GPQA, HLE и Terminal-Bench 2.0, но остаётся близко к Claude в Terminal-Bench 2.0: 67.9% против 69.4% ^[9].

Сводная таблица

Бенчмарк	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek-V4-Pro-Max	Kimi K2.6	Кто впереди
GPQA Diamond	93.6% ^[9]	н/д	94.2% ^[9]	90.1% ^[9]	н/д	Claude Opus 4.7
Humanity’s Last Exam, без инструментов	41.4% ^[9]	43.1% ^[9]	46.9% ^[9]	37.7% ^[9]	н/д	Claude Opus 4.7
Humanity’s Last Exam, с инструментами	52.2% ^[9]	57.2% ^[9]	54.7% ^[9]	48.2% ^[9]	н/д	GPT-5.5 Pro
Terminal-Bench 2.0	82.7% ^[9]	н/д	69.4% ^[9]	67.9% ^[9]	66.7 ^[15]	GPT-5.5
SWE-Bench Verified	н/д	н/д	н/д	н/д	80.2 ^[15]	недостаточно данных
SWE-Bench Pro	н/д	н/д	н/д	н/д	58.6 ^[15]	недостаточно данных
SWE-Bench Multilingual	н/д	н/д	н/д	н/д	76.7 ^[15]	недостаточно данных

По моделям

GPT-5.5

GPT-5.5 показывает лучший найденный результат в Terminal-Bench 2.0 среди сопоставленных моделей: 82.7% ^[9].
GPT-5.5 уступает Claude Opus 4.7 в GPQA Diamond: 93.6% против 94.2% ^[9].
GPT-5.5 уступает Claude Opus 4.7 в Humanity’s Last Exam без инструментов: 41.4% против 46.9% ^[9].
GPT-5.5 Pro, отдельный более сильный режим/вариант в найденной таблице, выходит на первое место в HLE с инструментами: 57.2% ^[9].

Claude Opus 4.7

Claude Opus 4.7 — лидер по GPQA Diamond среди моделей в найденной таблице: 94.2% ^[9].
Claude Opus 4.7 — лидер по HLE без инструментов: 46.9% ^[9].
Claude Opus 4.7 занимает второе место в HLE с инструментами после GPT-5.5 Pro: 54.7% против 57.2% ^[9].
В Terminal-Bench 2.0 Claude Opus 4.7 значительно уступает GPT-5.5: 69.4% против 82.7% ^[9].

Kimi K2.6

Kimi K2.6 имеет сильный профиль в coding-задачах: 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro и 76.7 на SWE-Bench Multilingual ^[15].
Kimi K2.6 набирает 66.7 в Terminal-Bench 2.0, что близко к DeepSeek-V4-Pro-Max 67.9 и Claude Opus 4.7 69.4, но заметно ниже GPT-5.5 82.7 ^[9]^[15].
Kimi K2.6 в найденных источниках описывается как новая сильная open-weights модель, а её карточка модели приводит отдельную таблицу результатов по coding и agentic-бенчмаркам ^[14]^[15].

DeepSeek V4

В найденной сопоставимой таблице указана именно версия DeepSeek-V4-Pro-Max, поэтому выводы по DeepSeek V4 лучше читать как выводы по этой конкретной версии, а не обязательно по всей линейке V4 ^[9].
DeepSeek-V4-Pro-Max показывает 90.1% на GPQA Diamond, что ниже GPT-5.5 93.6% и Claude Opus 4.7 94.2% ^[9].
DeepSeek-V4-Pro-Max показывает 37.7% на HLE без инструментов и 48.2% на HLE с инструментами, что ниже GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 в той же таблице ^[9].
В Terminal-Bench 2.0 DeepSeek-V4-Pro-Max набирает 67.9%, что почти на уровне Claude Opus 4.7 69.4%, но существенно ниже GPT-5.5 82.7% ^[9].

Evidence notes

Самая полезная найденная таблица сравнивает DeepSeek-V4-Pro-Max, GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 по GPQA Diamond, HLE и Terminal-Bench 2.0 ^[9].
Для Kimi K2.6 наиболее конкретные найденные цифры идут из карточки модели: Terminal-Bench 2.0 — 66.7, SWE-Bench Pro — 58.6, SWE-Bench Multilingual — 76.7, SWE-Bench Verified — 80.2 и OSWorld-Verified — 73.1 ^[15].
Источник по GPT-5.5 и Claude Opus 4.7 также указывает даты релиза: GPT-5.5 — 23 апреля 2026 года, Claude Opus 4.7 — 16 апреля 2026 года ^[10].

Limitations / uncertainty

Insufficient evidence для полностью строгого сравнения всех четырёх моделей в одном независимом прогоне с одинаковыми настройками, потому что Kimi K2.6 не присутствует в основной найденной таблице вместе с GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max ^[9]^[15].
Insufficient evidence для уверенного сравнения всех четырёх моделей по SWE-Bench Verified, потому что найденные конкретные SWE-Bench-цифры относятся к Kimi K2.6, а сопоставимые значения для GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max в доступных фрагментах не были полно представлены ^[15].
Результаты по DeepSeek относятся к варианту DeepSeek-V4-Pro-Max, поэтому их не следует автоматически переносить на все версии DeepSeek V4 ^[9].

Summary

Источники

[6] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
BenchmarkDeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, where shownClaude Opus 4.7Best result among these GPQA Diamond90.1%93.6%—94.2%Claude Opus 4.7 Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 Humanity’s Last Exam, with tools48.2%52.2%57.2%54...
[7] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[14] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[15] DeepSeek V4 Preview: The Complete 2026 Guide - o-mega | AIo-mega.ai
7. Head-to-Head: DeepSeek V4 vs Claude Opus 4.7 Claude Opus 4.7, released just eight days before DeepSeek V4 on April 16, represents Anthropic's most capable model and the current leader in agentic coding tasks. The comparison with V4-Pro reveals a more nua...
[19] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[25] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
OSWorld-Verified 73.1 75.0 72.7 63.3 Coding Terminal-Bench 2.0 (Terminus-2) 66.7 65.4 65.4 68.5 50.8 SWE-Bench Pro 58.6 57.7 53.4 54.2 50.7 SWE-Bench Multilingual 76.7 77.8 76.9 73.0 SWE-Bench Verified 80.2 80.8 80.6 76.8 SciCode 52.2 56.6 51.9 58.9 48.7 OJ...
[33] Terminal-Bench 2.0 Leaderboardllm-stats.com
Model Score Size Context Cost License --- --- --- 1 Anthropic Claude Mythos Preview Anthropic 0.820 — — $25.00 / $125.00 2 OpenAI GPT-5.3 Codex OpenAI 0.773 — 400K $1.75 / $14.00 3 OpenAI GPT-5.4 OpenAI 0.751 — 1.0M $2.50 / $15.00 4 Anthropic Claude Opus 4....
[37] .eval_results/swe_bench_verified.yaml · moonshotai/Kimi-K2.6 at mainhuggingface.co
Hugging Face's logo moonshotai / Kimi-K2.6 like 1.04k Follow Moonshot AI 9.2k bigeagle's picture --- - dataset: id: SWE-bench/SWE-bench\ Verified task\ id: swe\ bench\ %\ resolved value: 80.2 date: '2026-04-20' source: url: name: Model Card user: SaylorTwift