studioglobal
Популярное в «Открыть»
ОтчетыОпубликовано8 источники

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: сравнение бенчмарков

Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond (94.2%) и HLE без инструментов (46.9%), GPT 5.5 — в Terminal Bench 2.0 (82.7%), а GPT 5.5 Pro — в HLE с инструментами (57.2%) и BrowseComp (90.1%); Kimi... Kimi K2.6 выглядит сильным кандидатом для coding задач с доступными весами: карточка модели указы...

17K0
Сравнение AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам
GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахИллюстрация к сравнению GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по ключевым AI-бенчмаркам.
Промпт ИИ

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond — 94.2% — и HLE без инструментов — 46.9%, GPT 5.5 — в Terminal Bench 2.0 с 82.7%, а GPT 5.5 Pro — в HLE с инструментами и BrowseComp.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2.6 vs GPT-5.5 vs DeepSeek V4](https://www.youtube.com/watch?v=hqPVqQtgWOc). 🤯xCreate 8.4K views • 1 day ago Live Playlist ()Mix (50+)](https://www.youtube.com/watch?v=3928" source context "Kimi K2.6 vs GPT-5.5 vs DeepSeek V4 - YouTube" Reference image 2: visual subject "# GPT-5.5vs Claude Opus 4.7. Get a detailed comparison of AI language modelsOpenAI's GPT-5.5andAnthropic's

openai.com

По доступным опубликованным данным это не гонка с одним абсолютным победителем. Самая сопоставимая таблица покрывает GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 и DeepSeek-V4-Pro-Max; Kimi K2.6 приходится добавлять из отдельной карточки Hugging Face и eval-файла, поэтому его нельзя честно читать как часть того же head-to-head прогона [6][25][37].

Есть ещё одна важная оговорка: DeepSeek в общей таблице указан как DeepSeek-V4-Pro-Max, а отдельные данные по SWE-Bench Verified в другом источнике относятся к DeepSeek V4-Pro [6][15]. Поэтому корректный вывод звучит так: разные варианты DeepSeek V4 показывают разные результаты в разных источниках, а не одна универсальная цифра для всей линейки.

Быстрый выбор по задаче

  • Сложное reasoning без инструментов: сначала стоит тестировать Claude Opus 4.7 — он лидирует в GPQA Diamond и Humanity’s Last Exam без инструментов в общей таблице [6].
  • Терминальные agentic-задачи: GPT-5.5 выглядит сильнее всех в Terminal-Bench 2.0: 82.7% против 69.4% у Claude Opus 4.7 и 67.9% у DeepSeek-V4-Pro-Max [6].
  • Reasoning с инструментами и browsing: GPT-5.5 Pro лидирует там, где для него есть данные: 57.2% в HLE с инструментами и 90.1% в BrowseComp [6].
  • Coding и эксперименты с доступными весами: Kimi K2.6 стоит проверять отдельно: карточка модели указывает 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro и 66.7 на Terminal-Bench 2.0 [25][37]. Источник по Kimi также указывает, что веса доступны на Hugging Face и модель можно запускать через vLLM, SGLang или KTransformers [7].
  • Сценарии, где стоимость важнее первого места: DeepSeek V4 не лидирует в приведённой общей таблице, но источники указывают API-цены $1.74 за 1 млн input-токенов и $3.48 за 1 млн output-токенов против $5/$30 у GPT-5.5 и $5/$25 у Claude Opus 4.7 [14][19].

Сводная таблица результатов

БенчмаркGPT-5.5GPT-5.5 ProClaude Opus 4.7DeepSeek V4Kimi K2.6Лидер по доступным данным
GPQA Diamond93.6% [6]н/д94.2% [6]90.1% у DeepSeek-V4-Pro-Max [6]н/дClaude Opus 4.7 [6]
Humanity’s Last Exam, без инструментов41.4% [6]43.1% [6]46.9% [6]37.7% у DeepSeek-V4-Pro-Max [6]н/дClaude Opus 4.7 [6]
Humanity’s Last Exam, с инструментами52.2% [6]57.2% [6]54.7% [6]48.2% у DeepSeek-V4-Pro-Max [6]н/дGPT-5.5 Pro [6]
Terminal-Bench 2.082.7% [6]н/д69.4% [6]67.9% у DeepSeek-V4-Pro-Max [6]66.7 [25][33]GPT-5.5 [6]
SWE-Bench Pro / SWE Pro58.6% [6]н/д64.3% [6]55.4% у DeepSeek-V4-Pro-Max [6]58.6 [25]Claude Opus 4.7 [6]
BrowseComp84.4% [6]90.1% [6]79.3% [6]83.4% у DeepSeek-V4-Pro-Max [6]н/дGPT-5.5 Pro [6]
MCP Atlas / MCPAtlas Public75.3% [6]н/д79.1% [6]73.6% у DeepSeek-V4-Pro-Max [6]н/дClaude Opus 4.7 [6]
SWE-Bench Verifiedн/дн/д87.6% в отдельном сравнении [15]80.6% для DeepSeek V4-Pro, не Pro-Max [15]80.2 [25][37]Нет общей строки для всех моделей [15][25][37]

Здесь н/д означает, что значение не было приведено в соответствующем источнике, а не что модель получила ноль.

Reasoning: Claude сильнее без инструментов, GPT-5.5 Pro — с инструментами

В GPQA Diamond разрыв между Claude Opus 4.7 и GPT-5.5 небольшой: 94.2% против 93.6%, тогда как DeepSeek-V4-Pro-Max получает 90.1% [6]. В Humanity’s Last Exam без инструментов преимущество Claude заметнее: 46.9% против 41.4% у GPT-5.5, 43.1% у GPT-5.5 Pro и 37.7% у DeepSeek-V4-Pro-Max [6].

Но ранжирование меняется, когда в HLE разрешены инструменты. В этой строке GPT-5.5 Pro показывает 57.2%, Claude Opus 4.7 — 54.7%, GPT-5.5 — 52.2%, а DeepSeek-V4-Pro-Max — 48.2% [6]. Поэтому точный вывод такой: Claude выглядит сильнее в чистом reasoning без инструментов, а GPT-5.5 Pro — в tool-augmented reasoning по доступной строке HLE [6].

Coding и agentic-бенчмарки: главный отрыв у GPT-5.5 в Terminal-Bench

Самый крупный разрыв GPT-5.5 в этой выборке — Terminal-Bench 2.0: 82.7% против 69.4% у Claude Opus 4.7 и 67.9% у DeepSeek-V4-Pro-Max [6]. У Kimi K2.6 в карточке модели указано 66.7 на Terminal-Bench 2.0, а отдельный лидерборд LLM Stats также приводит 0.667 для Kimi K2.6 и 0.694 для Claude Opus 4.7 [25][33]. Это ставит Kimi близко к Claude и DeepSeek в этой конкретной шкале, но заметно ниже GPT-5.5 по общей таблице [6][25][33].

В SWE-Bench Pro / SWE Pro картина другая: Claude Opus 4.7 лидирует с 64.3%, GPT-5.5 получает 58.6%, а DeepSeek-V4-Pro-Max — 55.4% [6]. Kimi K2.6 также указан с 58.6 на SWE-Bench Pro в карточке Hugging Face, но это не тот же единый сравнительный прогон, что строка из общей таблицы [6][25].

SWE-Bench Verified лучше не превращать в общий рейтинг всех четырёх моделей. Для Kimi K2.6 есть значение 80.2 в карточке модели и eval-файле [25][37]. Отдельный обзор DeepSeek V4 сообщает 87.6% для Claude Opus 4.7 и 80.6% для DeepSeek V4-Pro, но не даёт полной строки для GPT-5.5 и относится к V4-Pro, а не к V4-Pro-Max [15].

По моделям: где каждая выглядит сильнее

GPT-5.5 и GPT-5.5 Pro

GPT-5.5 лучше всего выделяется в Terminal-Bench 2.0: 82.7% — лучший результат среди моделей в общей таблице по этой строке [6]. GPT-5.5 Pro указан не во всех строках, но там, где он есть, выходит на первое место: 57.2% в HLE с инструментами и 90.1% в BrowseComp [6].

Практический вывод: GPT-5.5 стоит первым проверять на терминальных agentic-сценариях, а GPT-5.5 Pro — на задачах, где важны инструменты, browsing или reasoning с внешними действиями [6].

Claude Opus 4.7

Claude Opus 4.7 лидирует в нескольких строках общей таблицы: 94.2% в GPQA Diamond, 46.9% в HLE без инструментов, 64.3% в SWE-Bench Pro / SWE Pro и 79.1% в MCP Atlas / MCPAtlas Public [6]. При этом Claude уступает GPT-5.5 в Terminal-Bench 2.0 и GPT-5.5 Pro в HLE с инструментами и BrowseComp [6].

Если нужна первая модель-кандидат для сложного reasoning без инструментов или coding-задач, близких к SWE-Bench Pro, Claude Opus 4.7 выглядит наиболее сильным вариантом по этим строкам [6].

Kimi K2.6

Kimi K2.6 нельзя строго ранжировать против всех остальных по единому прогону, потому что его цифры в этой статье идут из отдельной карточки Hugging Face и eval-файла [25][37]. Но как coding-кандидат он выглядит заметно: карточка модели указывает 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro, 76.7 на SWE-Bench Multilingual, 66.7 на Terminal-Bench 2.0 и 73.1 на OSWorld-Verified [25][37].

Операционно Kimi интересен тем, что источник указывает доступность весов на Hugging Face и запуск через vLLM, SGLang или KTransformers [7]. Это не делает Kimi победителем общей benchmark-таблицы, но делает его отдельным кандидатом для команд, которым важны self-hosted или локальные эксперименты [7][25].

DeepSeek V4

В общей таблице DeepSeek представлен вариантом DeepSeek-V4-Pro-Max [6]. В приведённых строках он не занимает первое место: 90.1% в GPQA Diamond, 37.7% в HLE без инструментов, 48.2% в HLE с инструментами, 67.9% в Terminal-Bench 2.0, 55.4% в SWE-Bench Pro / SWE Pro, 83.4% в BrowseComp и 73.6% в MCP Atlas / MCPAtlas Public [6].

Сильная сторона DeepSeek V4 в этой подборке — не абсолютное лидерство, а цена при достаточной для части сценариев производительности. Mashable и DataCamp приводят API-цены DeepSeek V4 на уровне $1.74 за 1 млн input-токенов и $3.48 за 1 млн output-токенов; для сравнения, те же источники указывают $5/$30 для GPT-5.5 и $5/$25 для Claude Opus 4.7 [14][19]. Если бюджет — главный ограничитель, DeepSeek V4 стоит включить в собственный eval, но не объявлять benchmark-лидером по этой таблице [6][14][19].

Главные ограничения сравнения

  1. Нет одного общего прогона для всех четырёх моделей во всех строках. Общая таблица покрывает GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 и DeepSeek-V4-Pro-Max, а Kimi K2.6 добавлен по отдельным источникам [6][25][37].
  2. DeepSeek V4 обозначает разные варианты в разных источниках. В общей таблице указан DeepSeek-V4-Pro-Max, а отдельная цифра SWE-Bench Verified относится к DeepSeek V4-Pro [6][15].
  3. GPT-5.5 Pro есть не везде. В общей таблице Pro-колонка приведена только для некоторых бенчмарков, поэтому нельзя автоматически переносить его результат на строки, где он не указан [6].
  4. Kimi K2.6 лучше проверять собственными evals. Его Hugging Face-результаты полезны, но они не взяты из той же общей таблицы, что данные по GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max [6][25][37].

Итог

Если смотреть только на сопоставимые строки общей таблицы, Claude Opus 4.7 выигрывает GPQA Diamond, Humanity’s Last Exam без инструментов, SWE-Bench Pro и MCP Atlas; GPT-5.5 выигрывает Terminal-Bench 2.0; GPT-5.5 Pro выигрывает HLE с инструментами и BrowseComp [6]. Kimi K2.6 выглядит сильным coding-кандидатом с доступными весами по отдельным данным Hugging Face, но его нельзя строго ранжировать против остальных без общего прогона [7][25][37]. DeepSeek V4 в этих benchmark-строках не лидер, зато благодаря более низким опубликованным API-ценам остаётся моделью, которую разумно отдельно проверить в cost-sensitive сценариях [6][14][19].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

  • Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond (94.2%) и HLE без инструментов (46.9%), GPT 5.5 — в Terminal Bench 2.0 (82.7%), а GPT 5.5 Pro — в HLE с инструментами (57.2%) и BrowseComp (90.1%); Kimi...
  • Kimi K2.6 выглядит сильным кандидатом для coding задач с доступными весами: карточка модели указывает 80.2 на SWE Bench Verified, 58.6 на SWE Bench Pro и 66.7 на Terminal Bench 2.0 [7][25][37].
  • DeepSeek V4 в приведённых benchmark строках не занимает первое место, но источники указывают более низкие API цены: $1.74 за 1 млн input токенов и $3.48 за 1 млн output токенов против $5/$30 у GPT 5.5 и $5/$25 у Claud...

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: сравнение бенчмарков»?

Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond (94.2%) и HLE без инструментов (46.9%), GPT 5.5 — в Terminal Bench 2.0 (82.7%), а GPT 5.5 Pro — в HLE с инструментами (57.2%) и BrowseComp (90.1%); Kimi...

Какие ключевые моменты необходимо проверить в первую очередь?

Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond (94.2%) и HLE без инструментов (46.9%), GPT 5.5 — в Terminal Bench 2.0 (82.7%), а GPT 5.5 Pro — в HLE с инструментами (57.2%) и BrowseComp (90.1%); Kimi... Kimi K2.6 выглядит сильным кандидатом для coding задач с доступными весами: карточка модели указывает 80.2 на SWE Bench Verified, 58.6 на SWE Bench Pro и 66.7 на Terminal Bench 2.0 [7][25][37].

Что мне делать дальше на практике?

DeepSeek V4 в приведённых benchmark строках не занимает первое место, но источники указывают более низкие API цены: $1.74 за 1 млн input токенов и $3.48 за 1 млн output токенов против $5/$30 у GPT 5.5 и $5/$25 у Claud...

Какую связанную тему мне следует изучить дальше?

Продолжайте с «GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы

Вопрос исследования

Изучите показатели GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 в бенчмарках. Пожалуйста, сделайте отчёт удобным для чтения.

Studio Global AI40 источники

Цитируемый ответ

Я нашёл сопоставимые данные не по всем четырём моделям в одном и том же независимом тестовом прогоне. Поэтому ниже — аккуратная сводка: GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max сравниваются по одной опубликованной таблице, а Kimi K2.6 добавлен по отдельной карточке модели; прямое сравнение с Kimi нужно считать ориентировочным, а не строго «один к одному» [9][15].

Key findings

  • Claude Opus 4.7 выглядит сильнейшим в GPQA Diamond: 94.2% против 93.6% у GPT-5.5 и 90.1% у DeepSeek-V4-Pro-Max [9].

  • Claude Opus 4.7 также лидирует в Humanity’s Last Exam без инструментов: 46.9% против 41.4% у GPT-5.5, 43.1% у GPT-5.5 Pro и 37.7% у DeepSeek-V4-Pro-Max [9].

  • GPT-5.5 Pro лидирует в Humanity’s Last Exam с инструментами: 57.2% против 54.7% у Claude Opus 4.7, 52.2% у GPT-5.5 и 48.2% у DeepSeek-V4-Pro-Max [9].

  • GPT-5.5 заметно впереди в Terminal-Bench 2.0: 82.7% против 69.4% у Claude Opus 4.7, 67.9% у DeepSeek-V4-Pro-Max и 66.7% у Kimi K2.6 [9][15].

  • Kimi K2.6 выглядит очень сильной открытой/доступной по весам моделью для coding-бенчмарков: карточка модели указывает 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro, 76.7 на SWE-Bench Multilingual и 66.7 на Terminal-Bench 2.0 [15].

  • DeepSeek-V4-Pro-Max в найденной таблице стабильно ниже GPT-5.5 и Claude Opus 4.7 по GPQA, HLE и Terminal-Bench 2.0, но остаётся близко к Claude в Terminal-Bench 2.0: 67.9% против 69.4% [9].

Сводная таблица

БенчмаркGPT-5.5GPT-5.5 ProClaude Opus 4.7DeepSeek-V4-Pro-MaxKimi K2.6Кто впереди
GPQA Diamond93.6% [9]н/д94.2% [9]90.1% [9]н/дClaude Opus 4.7
Humanity’s Last Exam, без инструментов41.4% [9]43.1% [9]46.9% [9]37.7% [9]н/дClaude Opus 4.7
Humanity’s Last Exam, с инструментами52.2% [9]57.2% [9]54.7% [9]48.2% [9]н/дGPT-5.5 Pro
Terminal-Bench 2.082.7% [9]н/д69.4% [9]67.9% [9]66.7 [15]GPT-5.5
SWE-Bench Verifiedн/дн/дн/дн/д80.2 [15]недостаточно данных
SWE-Bench Proн/дн/дн/дн/д58.6 [15]недостаточно данных
SWE-Bench Multilingualн/дн/дн/дн/д76.7 [15]недостаточно данных

По моделям

GPT-5.5

  • GPT-5.5 показывает лучший найденный результат в Terminal-Bench 2.0 среди сопоставленных моделей: 82.7% [9].

  • GPT-5.5 уступает Claude Opus 4.7 в GPQA Diamond: 93.6% против 94.2% [9].

  • GPT-5.5 уступает Claude Opus 4.7 в Humanity’s Last Exam без инструментов: 41.4% против 46.9% [9].

  • GPT-5.5 Pro, отдельный более сильный режим/вариант в найденной таблице, выходит на первое место в HLE с инструментами: 57.2% [9].

Claude Opus 4.7

  • Claude Opus 4.7 — лидер по GPQA Diamond среди моделей в найденной таблице: 94.2% [9].

  • Claude Opus 4.7 — лидер по HLE без инструментов: 46.9% [9].

  • Claude Opus 4.7 занимает второе место в HLE с инструментами после GPT-5.5 Pro: 54.7% против 57.2% [9].

  • В Terminal-Bench 2.0 Claude Opus 4.7 значительно уступает GPT-5.5: 69.4% против 82.7% [9].

Kimi K2.6

  • Kimi K2.6 имеет сильный профиль в coding-задачах: 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro и 76.7 на SWE-Bench Multilingual [15].

  • Kimi K2.6 набирает 66.7 в Terminal-Bench 2.0, что близко к DeepSeek-V4-Pro-Max 67.9 и Claude Opus 4.7 69.4, но заметно ниже GPT-5.5 82.7 [9][15].

  • Kimi K2.6 в найденных источниках описывается как новая сильная open-weights модель, а её карточка модели приводит отдельную таблицу результатов по coding и agentic-бенчмаркам [14][15].

DeepSeek V4

  • В найденной сопоставимой таблице указана именно версия DeepSeek-V4-Pro-Max, поэтому выводы по DeepSeek V4 лучше читать как выводы по этой конкретной версии, а не обязательно по всей линейке V4 [9].

  • DeepSeek-V4-Pro-Max показывает 90.1% на GPQA Diamond, что ниже GPT-5.5 93.6% и Claude Opus 4.7 94.2% [9].

  • DeepSeek-V4-Pro-Max показывает 37.7% на HLE без инструментов и 48.2% на HLE с инструментами, что ниже GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 в той же таблице [9].

  • В Terminal-Bench 2.0 DeepSeek-V4-Pro-Max набирает 67.9%, что почти на уровне Claude Opus 4.7 69.4%, но существенно ниже GPT-5.5 82.7% [9].

Evidence notes

  • Самая полезная найденная таблица сравнивает DeepSeek-V4-Pro-Max, GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 по GPQA Diamond, HLE и Terminal-Bench 2.0 [9].

  • Для Kimi K2.6 наиболее конкретные найденные цифры идут из карточки модели: Terminal-Bench 2.0 — 66.7, SWE-Bench Pro — 58.6, SWE-Bench Multilingual — 76.7, SWE-Bench Verified — 80.2 и OSWorld-Verified — 73.1 [15].

  • Источник по GPT-5.5 и Claude Opus 4.7 также указывает даты релиза: GPT-5.5 — 23 апреля 2026 года, Claude Opus 4.7 — 16 апреля 2026 года [10].

Limitations / uncertainty

  • Insufficient evidence для полностью строгого сравнения всех четырёх моделей в одном независимом прогоне с одинаковыми настройками, потому что Kimi K2.6 не присутствует в основной найденной таблице вместе с GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max [9][15].

  • Insufficient evidence для уверенного сравнения всех четырёх моделей по SWE-Bench Verified, потому что найденные конкретные SWE-Bench-цифры относятся к Kimi K2.6, а сопоставимые значения для GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max в доступных фрагментах не были полно представлены [15].

  • Результаты по DeepSeek относятся к варианту DeepSeek-V4-Pro-Max, поэтому их не следует автоматически переносить на все версии DeepSeek V4 [9].

Summary

Если смотреть только на найденные сопоставимые бенчмарки, Claude Opus 4.7 сильнее в GPQA и HLE без инструментов, GPT-5.5/GPT-5.5 Pro сильнее в Terminal-Bench 2.0 и HLE с инструментами, а DeepSeek-V4-Pro-Max держится близко к Claude в Terminal-Bench, но уступает в reasoning-тестах [9]. Kimi K2.6 выглядит особенно интересной для coding-сценариев благодаря 80.2 на SWE-Bench Verified и 58.6 на SWE-Bench Pro, но её нельзя строго ранжировать против всех трёх остальных моделей без единого общего тестового прогона [15].

Источники

  • [6] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    BenchmarkDeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, where shownClaude Opus 4.7Best result among these GPQA Diamond90.1%93.6%—94.2%Claude Opus 4.7 Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 Humanity’s Last Exam, with tools48.2%52.2%57.2%54...

  • [7] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai

    Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...

  • [14] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [15] DeepSeek V4 Preview: The Complete 2026 Guide - o-mega | AIo-mega.ai

    7. Head-to-Head: DeepSeek V4 vs Claude Opus 4.7 Claude Opus 4.7, released just eight days before DeepSeek V4 on April 16, represents Anthropic's most capable model and the current leader in agentic coding tasks. The comparison with V4-Pro reveals a more nua...

  • [19] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com

    DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...

  • [25] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co

    OSWorld-Verified 73.1 75.0 72.7 63.3 Coding Terminal-Bench 2.0 (Terminus-2) 66.7 65.4 65.4 68.5 50.8 SWE-Bench Pro 58.6 57.7 53.4 54.2 50.7 SWE-Bench Multilingual 76.7 77.8 76.9 73.0 SWE-Bench Verified 80.2 80.8 80.6 76.8 SciCode 52.2 56.6 51.9 58.9 48.7 OJ...

  • [33] Terminal-Bench 2.0 Leaderboardllm-stats.com

    Model Score Size Context Cost License --- --- --- 1 Anthropic Claude Mythos Preview Anthropic 0.820 — — $25.00 / $125.00 2 OpenAI GPT-5.3 Codex OpenAI 0.773 — 400K $1.75 / $14.00 3 OpenAI GPT-5.4 OpenAI 0.751 — 1.0M $2.50 / $15.00 4 Anthropic Claude Opus 4....

  • [37] .eval_results/swe_bench_verified.yaml · moonshotai/Kimi-K2.6 at mainhuggingface.co

    Hugging Face's logo moonshotai / Kimi-K2.6 like 1.04k Follow Moonshot AI 9.2k bigeagle's picture --- - dataset: id: SWE-bench/SWE-bench\ Verified task\ id: swe\ bench\ %\ resolved value: 80.2 date: '2026-04-20' source: url: name: Model Card user: SaylorTwift