Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond (94.2%) и HLE без инструментов (46.9%), GPT 5.5 — в Terminal Bench 2.0 (82.7%), а GPT 5.5 Pro — в HLE с инструментами (57.2%) и BrowseComp (90.1%); Kimi... Kimi K2.6 выглядит сильным кандидатом для coding задач с доступными весами: карточка модели указы...

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond — 94.2% — и HLE без инструментов — 46.9%, GPT 5.5 — в Terminal Bench 2.0 с 82.7%, а GPT 5.5 Pro — в HLE с инструментами и BrowseComp.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2.6 vs GPT-5.5 vs DeepSeek V4](https://www.youtube.com/watch?v=hqPVqQtgWOc). 🤯xCreate 8.4K views • 1 day ago Live Playlist ()Mix (50+)](https://www.youtube.com/watch?v=3928" source context "Kimi K2.6 vs GPT-5.5 vs DeepSeek V4 - YouTube" Reference image 2: visual subject "# GPT-5.5vs Claude Opus 4.7. Get a detailed comparison of AI language modelsOpenAI's GPT-5.5andAnthropic's
По доступным опубликованным данным это не гонка с одним абсолютным победителем. Самая сопоставимая таблица покрывает GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 и DeepSeek-V4-Pro-Max; Kimi K2.6 приходится добавлять из отдельной карточки Hugging Face и eval-файла, поэтому его нельзя честно читать как часть того же head-to-head прогона [6][
25][
37].
Есть ещё одна важная оговорка: DeepSeek в общей таблице указан как DeepSeek-V4-Pro-Max, а отдельные данные по SWE-Bench Verified в другом источнике относятся к DeepSeek V4-Pro [6][
15]. Поэтому корректный вывод звучит так: разные варианты DeepSeek V4 показывают разные результаты в разных источниках, а не одна универсальная цифра для всей линейки.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond (94.2%) и HLE без инструментов (46.9%), GPT 5.5 — в Terminal Bench 2.0 (82.7%), а GPT 5.5 Pro — в HLE с инструментами (57.2%) и BrowseComp (90.1%); Kimi...
Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond (94.2%) и HLE без инструментов (46.9%), GPT 5.5 — в Terminal Bench 2.0 (82.7%), а GPT 5.5 Pro — в HLE с инструментами (57.2%) и BrowseComp (90.1%); Kimi... Kimi K2.6 выглядит сильным кандидатом для coding задач с доступными весами: карточка модели указывает 80.2 на SWE Bench Verified, 58.6 на SWE Bench Pro и 66.7 на Terminal Bench 2.0 [7][25][37].
DeepSeek V4 в приведённых benchmark строках не занимает первое место, но источники указывают более низкие API цены: $1.74 за 1 млн input токенов и $3.48 за 1 млн output токенов против $5/$30 у GPT 5.5 и $5/$25 у Claud...
Продолжайте с «Гонконгская полиция к экзамену: ICAC, полномочия и ответственность», чтобы увидеть другой ракурс и дополнительные цитаты.
Open related pageСверьте этот ответ с «Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года».
Open related pageBenchmarkDeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, where shownClaude Opus 4.7Best result among these GPQA Diamond90.1%93.6%—94.2%Claude Opus 4.7 Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 Humanity’s Last Exam, with tools48.2%52.2%57.2%54...
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
7. Head-to-Head: DeepSeek V4 vs Claude Opus 4.7 Claude Opus 4.7, released just eight days before DeepSeek V4 on April 16, represents Anthropic's most capable model and the current leader in agentic coding tasks. The comparison with V4-Pro reveals a more nua...
| Бенчмарк | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | Лидер по доступным данным |
|---|---|---|---|---|---|---|
| GPQA Diamond | 93.6% [ | н/д | 94.2% [ | 90.1% у DeepSeek-V4-Pro-Max [ | н/д | Claude Opus 4.7 [ |
| Humanity’s Last Exam, без инструментов | 41.4% [ | 43.1% [ | 46.9% [ | 37.7% у DeepSeek-V4-Pro-Max [ | н/д | Claude Opus 4.7 [ |
| Humanity’s Last Exam, с инструментами | 52.2% [ | 57.2% [ | 54.7% [ | 48.2% у DeepSeek-V4-Pro-Max [ | н/д | GPT-5.5 Pro [ |
| Terminal-Bench 2.0 | 82.7% [ | н/д | 69.4% [ | 67.9% у DeepSeek-V4-Pro-Max [ | 66.7 [ | GPT-5.5 [ |
| SWE-Bench Pro / SWE Pro | 58.6% [ | н/д | 64.3% [ | 55.4% у DeepSeek-V4-Pro-Max [ | 58.6 [ | Claude Opus 4.7 [ |
| BrowseComp | 84.4% [ | 90.1% [ | 79.3% [ | 83.4% у DeepSeek-V4-Pro-Max [ | н/д | GPT-5.5 Pro [ |
| MCP Atlas / MCPAtlas Public | 75.3% [ | н/д | 79.1% [ | 73.6% у DeepSeek-V4-Pro-Max [ | н/д | Claude Opus 4.7 [ |
| SWE-Bench Verified | н/д | н/д | 87.6% в отдельном сравнении [ | 80.6% для DeepSeek V4-Pro, не Pro-Max [ | 80.2 [ | Нет общей строки для всех моделей [ |
Здесь н/д означает, что значение не было приведено в соответствующем источнике, а не что модель получила ноль.
В GPQA Diamond разрыв между Claude Opus 4.7 и GPT-5.5 небольшой: 94.2% против 93.6%, тогда как DeepSeek-V4-Pro-Max получает 90.1% [6]. В Humanity’s Last Exam без инструментов преимущество Claude заметнее: 46.9% против 41.4% у GPT-5.5, 43.1% у GPT-5.5 Pro и 37.7% у DeepSeek-V4-Pro-Max [
6].
Но ранжирование меняется, когда в HLE разрешены инструменты. В этой строке GPT-5.5 Pro показывает 57.2%, Claude Opus 4.7 — 54.7%, GPT-5.5 — 52.2%, а DeepSeek-V4-Pro-Max — 48.2% [6]. Поэтому точный вывод такой: Claude выглядит сильнее в чистом reasoning без инструментов, а GPT-5.5 Pro — в tool-augmented reasoning по доступной строке HLE [
6].
Самый крупный разрыв GPT-5.5 в этой выборке — Terminal-Bench 2.0: 82.7% против 69.4% у Claude Opus 4.7 и 67.9% у DeepSeek-V4-Pro-Max [6]. У Kimi K2.6 в карточке модели указано 66.7 на Terminal-Bench 2.0, а отдельный лидерборд LLM Stats также приводит 0.667 для Kimi K2.6 и 0.694 для Claude Opus 4.7 [
25][
33]. Это ставит Kimi близко к Claude и DeepSeek в этой конкретной шкале, но заметно ниже GPT-5.5 по общей таблице [
6][
25][
33].
В SWE-Bench Pro / SWE Pro картина другая: Claude Opus 4.7 лидирует с 64.3%, GPT-5.5 получает 58.6%, а DeepSeek-V4-Pro-Max — 55.4% [6]. Kimi K2.6 также указан с 58.6 на SWE-Bench Pro в карточке Hugging Face, но это не тот же единый сравнительный прогон, что строка из общей таблицы [
6][
25].
SWE-Bench Verified лучше не превращать в общий рейтинг всех четырёх моделей. Для Kimi K2.6 есть значение 80.2 в карточке модели и eval-файле [25][
37]. Отдельный обзор DeepSeek V4 сообщает 87.6% для Claude Opus 4.7 и 80.6% для DeepSeek V4-Pro, но не даёт полной строки для GPT-5.5 и относится к V4-Pro, а не к V4-Pro-Max [
15].
GPT-5.5 лучше всего выделяется в Terminal-Bench 2.0: 82.7% — лучший результат среди моделей в общей таблице по этой строке [6]. GPT-5.5 Pro указан не во всех строках, но там, где он есть, выходит на первое место: 57.2% в HLE с инструментами и 90.1% в BrowseComp [
6].
Практический вывод: GPT-5.5 стоит первым проверять на терминальных agentic-сценариях, а GPT-5.5 Pro — на задачах, где важны инструменты, browsing или reasoning с внешними действиями [6].
Claude Opus 4.7 лидирует в нескольких строках общей таблицы: 94.2% в GPQA Diamond, 46.9% в HLE без инструментов, 64.3% в SWE-Bench Pro / SWE Pro и 79.1% в MCP Atlas / MCPAtlas Public [6]. При этом Claude уступает GPT-5.5 в Terminal-Bench 2.0 и GPT-5.5 Pro в HLE с инструментами и BrowseComp [
6].
Если нужна первая модель-кандидат для сложного reasoning без инструментов или coding-задач, близких к SWE-Bench Pro, Claude Opus 4.7 выглядит наиболее сильным вариантом по этим строкам [6].
Kimi K2.6 нельзя строго ранжировать против всех остальных по единому прогону, потому что его цифры в этой статье идут из отдельной карточки Hugging Face и eval-файла [25][
37]. Но как coding-кандидат он выглядит заметно: карточка модели указывает 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro, 76.7 на SWE-Bench Multilingual, 66.7 на Terminal-Bench 2.0 и 73.1 на OSWorld-Verified [
25][
37].
Операционно Kimi интересен тем, что источник указывает доступность весов на Hugging Face и запуск через vLLM, SGLang или KTransformers [7]. Это не делает Kimi победителем общей benchmark-таблицы, но делает его отдельным кандидатом для команд, которым важны self-hosted или локальные эксперименты [
7][
25].
В общей таблице DeepSeek представлен вариантом DeepSeek-V4-Pro-Max [6]. В приведённых строках он не занимает первое место: 90.1% в GPQA Diamond, 37.7% в HLE без инструментов, 48.2% в HLE с инструментами, 67.9% в Terminal-Bench 2.0, 55.4% в SWE-Bench Pro / SWE Pro, 83.4% в BrowseComp и 73.6% в MCP Atlas / MCPAtlas Public [
6].
Сильная сторона DeepSeek V4 в этой подборке — не абсолютное лидерство, а цена при достаточной для части сценариев производительности. Mashable и DataCamp приводят API-цены DeepSeek V4 на уровне $1.74 за 1 млн input-токенов и $3.48 за 1 млн output-токенов; для сравнения, те же источники указывают $5/$30 для GPT-5.5 и $5/$25 для Claude Opus 4.7 [14][
19]. Если бюджет — главный ограничитель, DeepSeek V4 стоит включить в собственный eval, но не объявлять benchmark-лидером по этой таблице [
6][
14][
19].
Если смотреть только на сопоставимые строки общей таблицы, Claude Opus 4.7 выигрывает GPQA Diamond, Humanity’s Last Exam без инструментов, SWE-Bench Pro и MCP Atlas; GPT-5.5 выигрывает Terminal-Bench 2.0; GPT-5.5 Pro выигрывает HLE с инструментами и BrowseComp [6]. Kimi K2.6 выглядит сильным coding-кандидатом с доступными весами по отдельным данным Hugging Face, но его нельзя строго ранжировать против остальных без общего прогона [
7][
25][
37]. DeepSeek V4 в этих benchmark-строках не лидер, зато благодаря более низким опубликованным API-ценам остаётся моделью, которую разумно отдельно проверить в cost-sensitive сценариях [
6][
14][
19].
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
OSWorld-Verified 73.1 75.0 72.7 63.3 Coding Terminal-Bench 2.0 (Terminus-2) 66.7 65.4 65.4 68.5 50.8 SWE-Bench Pro 58.6 57.7 53.4 54.2 50.7 SWE-Bench Multilingual 76.7 77.8 76.9 73.0 SWE-Bench Verified 80.2 80.8 80.6 76.8 SciCode 52.2 56.6 51.9 58.9 48.7 OJ...
Model Score Size Context Cost License --- --- --- 1 Anthropic Claude Mythos Preview Anthropic 0.820 — — $25.00 / $125.00 2 OpenAI GPT-5.3 Codex OpenAI 0.773 — 400K $1.75 / $14.00 3 OpenAI GPT-5.4 OpenAI 0.751 — 1.0M $2.50 / $15.00 4 Anthropic Claude Opus 4....
Hugging Face's logo moonshotai / Kimi-K2.6 like 1.04k Follow Moonshot AI 9.2k bigeagle's picture --- - dataset: id: SWE-bench/SWE-bench\ Verified task\ id: swe\ bench\ %\ resolved value: 80.2 date: '2026-04-20' source: url: name: Model Card user: SaylorTwift