studioglobal
トレンドを発見する
レポート公開済み8 ソース

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4:ベンチマークでどれが強い?

単一の勝者はありません。Claude Opus 4.7はGPQA DiamondとHLEツールなし、GPT 5.5はTerminal Bench 2.0、GPT 5.5 ProはHLEツールありとBrowseCompで首位です [6]。 Kimi K2.6は同じ一斉比較には入っていませんが、Hugging FaceのカードではSWE Bench Verified 80.2、SWE Bench Pro 58.6、Terminal Bench 2.0 66.7を示します [25][37]。

17K0
Сравнение AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам
GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахИллюстрация к сравнению GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по ключевым AI-бенчмаркам.
AI プロンプト

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond — 94.2% — и HLE без инструментов — 46.9%, GPT 5.5 — в Terminal Bench 2.0 с 82.7%, а GPT 5.5 Pro — в HLE с инструментами и BrowseComp.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2.6 vs GPT-5.5 vs DeepSeek V4](https://www.youtube.com/watch?v=hqPVqQtgWOc). 🤯xCreate 8.4K views • 1 day ago Live Playlist ()Mix (50+)](https://www.youtube.com/watch?v=3928" source context "Kimi K2.6 vs GPT-5.5 vs DeepSeek V4 - YouTube" Reference image 2: visual subject "# GPT-5.5vs Claude Opus 4.7. Get a detailed comparison of AI language modelsOpenAI's GPT-5.5andAnthropic's

openai.com

公開済みの数値を見る限り、この比較は「1つの総合王者を決めるレース」ではありません。もっとも横並びに近い表はGPT-5.5、GPT-5.5 Pro、Claude Opus 4.7、DeepSeek-V4-Pro-Maxを対象にしています。一方、Kimi K2.6はHugging Faceのモデルカードとevalファイルから補う形になるため、同じ条件の直接比較としては読めません [6][25][37]

もう一つ大事なのは、DeepSeek V4の表記です。共通表に出てくるのはDeepSeek-V4-Pro-Maxですが、別ソースのSWE-Bench Verifiedの数値はDeepSeek V4-Proを指しています [6][15]。つまり、「DeepSeek V4は常にこの1つの数値」と見るのではなく、V4系のどのバリアントかを分けて読む必要があります。

用途別に最初に試すなら

  • ツールなしの難しいreasoning: まずClaude Opus 4.7。共通表ではGPQA DiamondとHumanity’s Last Exam(HLE)ツールなしで首位です [6]
  • ターミナル操作を含むagenticタスク: GPT-5.5が有力です。Terminal-Bench 2.0で82.7%、Claude Opus 4.7は69.4%、DeepSeek-V4-Pro-Maxは67.9%でした [6]
  • ツール利用やブラウジング込みの推論: GPT-5.5 Proが強い領域です。HLEツールありで57.2%、BrowseCompで90.1%を示しています [6]
  • codingと自前運用の検証: Kimi K2.6は別枠で確認したい候補です。モデルカードではSWE-Bench Verified 80.2、SWE-Bench Pro 58.6、Terminal-Bench 2.0 66.7が示されています [25][37]。また、重みがHugging Faceで利用可能で、vLLM、SGLang、KTransformersで実行できるとされています [7]
  • コストを強く意識する用途: DeepSeek V4は共通表では首位ではありませんが、API価格は100万inputトークンあたり1.74ドル、100万outputトークンあたり3.48ドルとされ、GPT-5.5の5ドル/30ドル、Claude Opus 4.7の5ドル/25ドルより低い水準です [6][14][19]

ベンチマーク結果の早見表

ベンチマークGPT-5.5GPT-5.5 ProClaude Opus 4.7DeepSeek V4Kimi K2.6利用可能なデータでの首位
GPQA Diamond93.6% [6]未掲載94.2% [6]90.1%(DeepSeek-V4-Pro-Max)[6]未掲載Claude Opus 4.7 [6]
Humanity’s Last Exam、ツールなし41.4% [6]43.1% [6]46.9% [6]37.7%(DeepSeek-V4-Pro-Max)[6]未掲載Claude Opus 4.7 [6]
Humanity’s Last Exam、ツールあり52.2% [6]57.2% [6]54.7% [6]48.2%(DeepSeek-V4-Pro-Max)[6]未掲載GPT-5.5 Pro [6]
Terminal-Bench 2.082.7% [6]未掲載69.4% [6]67.9%(DeepSeek-V4-Pro-Max)[6]66.7 [25][33]GPT-5.5 [6]
SWE-Bench Pro / SWE Pro58.6% [6]未掲載64.3% [6]55.4%(DeepSeek-V4-Pro-Max)[6]58.6 [25]Claude Opus 4.7 [6]
BrowseComp84.4% [6]90.1% [6]79.3% [6]83.4%(DeepSeek-V4-Pro-Max)[6]未掲載GPT-5.5 Pro [6]
MCP Atlas / MCPAtlas Public75.3% [6]未掲載79.1% [6]73.6%(DeepSeek-V4-Pro-Max)[6]未掲載Claude Opus 4.7 [6]
SWE-Bench Verified未掲載未掲載87.6%(別比較)[15]80.6%(DeepSeek V4-Pro。Pro-Maxではない)[15]80.2 [25][37]全モデル共通の行はなし [15][25][37]

「未掲載」は、該当ソースに数値が示されていないという意味です。モデルのスコアがゼロだった、という意味ではありません。

Reasoning:ツールなしはClaude、ツール込みはGPT-5.5 Pro

GPQA DiamondではClaude Opus 4.7が94.2%、GPT-5.5が93.6%、DeepSeek-V4-Pro-Maxが90.1%です。差は大きくありませんが、首位はClaude Opus 4.7です [6]

Humanity’s Last Examのツールなしでも、Claude Opus 4.7が46.9%で先行します。GPT-5.5は41.4%、GPT-5.5 Proは43.1%、DeepSeek-V4-Pro-Maxは37.7%でした [6]

一方、HLEでツール利用が許可されると並びが変わります。GPT-5.5 Proは57.2%で、Claude Opus 4.7の54.7%、GPT-5.5の52.2%、DeepSeek-V4-Pro-Maxの48.2%を上回ります [6]。したがって、素のreasoningではClaude、ツール拡張込みのreasoningではGPT-5.5 Pro、という見方がもっとも正確です [6]

Codingとagentic系:Terminal-BenchではGPT-5.5の差が大きい

この比較でGPT-5.5の強さが最もはっきり出るのはTerminal-Bench 2.0です。GPT-5.5は82.7%で、Claude Opus 4.7の69.4%、DeepSeek-V4-Pro-Maxの67.9%を大きく上回ります [6]

Kimi K2.6については、モデルカードでTerminal-Bench 2.0が66.7と示されています。別のLLM StatsリーダーボードでもKimi K2.6は0.667、Claude Opus 4.7は0.694とされています [25][33]。この範囲ではKimiはClaudeやDeepSeekに近い位置ですが、共通表のGPT-5.5とは明確な差があります [6][25][33]

SWE-Bench Pro / SWE Proでは構図が変わります。Claude Opus 4.7が64.3%で首位、GPT-5.5が58.6%、DeepSeek-V4-Pro-Maxが55.4%です [6]。Kimi K2.6もHugging FaceのモデルカードではSWE-Bench Pro 58.6とされていますが、これはGPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Maxと同じ一斉比較の行ではありません [6][25]

SWE-Bench Verifiedについては、4モデルを単純な総合ランキングにしない方が安全です。Kimi K2.6にはモデルカードとevalファイルで80.2という値があります [25][37]。別ソースではClaude Opus 4.7が87.6%、DeepSeek V4-Proが80.6%とされていますが、GPT-5.5を含む全モデル共通の行ではなく、DeepSeek側もV4-Pro-MaxではなくV4-Proです [15]

モデル別の見どころ

GPT-5.5 / GPT-5.5 Pro

GPT-5.5はTerminal-Bench 2.0で82.7%を示し、共通表のこの行ではもっとも強い結果です [6]。ターミナル上で複数ステップを進めるagenticな作業を重視するなら、最初に試す候補になりやすいモデルです。

GPT-5.5 Proはすべての行に数値があるわけではありません。ただし、掲載されている行では目立ちます。HLEツールありで57.2%、BrowseCompで90.1%を示し、いずれも首位です [6]。外部ツール、ブラウジング、複数アクションを前提にした推論では、GPT-5.5 Proを優先的に評価する価値があります [6]

Claude Opus 4.7

Claude Opus 4.7は、共通表の複数行で首位です。GPQA Diamondで94.2%、HLEツールなしで46.9%、SWE-Bench Pro / SWE Proで64.3%、MCP Atlas / MCPAtlas Publicで79.1%を示しています [6]

一方で、Terminal-Bench 2.0ではGPT-5.5に、HLEツールありとBrowseCompではGPT-5.5 Proに譲ります [6]。ツールを使わない高度なreasoningや、SWE-Bench Proに近いcodingタスクでは有力候補ですが、すべての領域で一強というわけではありません [6]

Kimi K2.6

Kimi K2.6は、今回の4モデルを同じ条件で走らせた共通表には入っていません。そのため、GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Maxと厳密に横並びで順位づけするのは避けるべきです [6][25][37]

それでもcoding系の候補としては見逃せません。Hugging Faceのモデルカードとevalファイルでは、SWE-Bench Verified 80.2、SWE-Bench Pro 58.6、SWE-Bench Multilingual 76.7、Terminal-Bench 2.0 66.7、OSWorld-Verified 73.1が示されています [25][37]

運用面では、重みがHugging Faceで利用可能で、vLLM、SGLang、KTransformersで実行できるとされている点も特徴です [7]。これはKimi K2.6を全体のベンチマーク勝者にするものではありませんが、自前環境での検証やself-hosted構成を考えるチームにとって、別枠で評価する理由になります [7][25]

DeepSeek V4

共通表で使われているのはDeepSeek-V4-Pro-Maxです [6]。この表の範囲では、DeepSeek-V4-Pro-Maxは首位を取っていません。数値はGPQA Diamond 90.1%、HLEツールなし37.7%、HLEツールあり48.2%、Terminal-Bench 2.0 67.9%、SWE-Bench Pro / SWE Pro 55.4%、BrowseComp 83.4%、MCP Atlas / MCPAtlas Public 73.6%です [6]

ただし、DeepSeek V4の強みは「最高スコア」よりも価格面にあります。MashableとDataCampは、DeepSeek V4のAPI価格を100万inputトークンあたり1.74ドル、100万outputトークンあたり3.48ドルとし、GPT-5.5は5ドル/30ドル、Claude Opus 4.7は5ドル/25ドルとしています [14][19]。大量処理や費用制約の強い用途では、DeepSeek V4を独自評価に入れる価値があります。ただし、この共通表だけでベンチマークリーダーと呼ぶのは正確ではありません [6][14][19]

比較するときの注意点

  1. 4モデルすべてを同一条件で測った完全な表ではありません。 共通表はGPT-5.5、GPT-5.5 Pro、Claude Opus 4.7、DeepSeek-V4-Pro-Maxを扱い、Kimi K2.6はHugging Faceのモデルカードとevalファイルから補っています [6][25][37]
  2. DeepSeek V4はバリアント名を確認する必要があります。 共通表はDeepSeek-V4-Pro-Max、別ソースのSWE-Bench VerifiedはDeepSeek V4-Proです [6][15]
  3. GPT-5.5 Proは掲載されていない行があります。 Proの数値がないベンチマークでは、GPT-5.5 Proの順位を推測で埋めるべきではありません [6]
  4. Kimi K2.6は自分たちの評価セットで確認したいモデルです。 公開されているHugging Faceの数値は有用ですが、共通表と同じ直接比較ではありません [6][25][37]

結論

共通表だけを見ると、Claude Opus 4.7はGPQA Diamond、HLEツールなし、SWE-Bench Pro、MCP Atlasで強く、GPT-5.5はTerminal-Bench 2.0で大きく先行します。GPT-5.5 ProはHLEツールありとBrowseCompで首位です [6]

Kimi K2.6は同じ直接比較には入っていないものの、coding系の数値と重みの利用可能性から、別枠で検証する価値があります [7][25][37]。DeepSeek V4はこの表ではベンチマーク首位ではありませんが、公開API価格の低さから、コスト重視のシナリオでは十分に評価対象になります [6][14][19]。最終的には、ベンチマークの総合点ではなく、ツール利用の有無、coding比率、運用形態、トークン単価を合わせて選ぶのが現実的です。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

  • 単一の勝者はありません。Claude Opus 4.7はGPQA DiamondとHLEツールなし、GPT 5.5はTerminal Bench 2.0、GPT 5.5 ProはHLEツールありとBrowseCompで首位です [6]。
  • Kimi K2.6は同じ一斉比較には入っていませんが、Hugging FaceのカードではSWE Bench Verified 80.2、SWE Bench Pro 58.6、Terminal Bench 2.0 66.7を示します [25][37]。
  • DeepSeek V4は表の首位ではない一方、公開API価格は100万inputトークンあたり1.74ドル、outputあたり3.48ドルとされ、コスト重視なら検証候補です [14][19]。

人々も尋ねます

「GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4:ベンチマークでどれが強い?」の短い答えは何ですか?

単一の勝者はありません。Claude Opus 4.7はGPQA DiamondとHLEツールなし、GPT 5.5はTerminal Bench 2.0、GPT 5.5 ProはHLEツールありとBrowseCompで首位です [6]。

最初に検証する重要なポイントは何ですか?

単一の勝者はありません。Claude Opus 4.7はGPQA DiamondとHLEツールなし、GPT 5.5はTerminal Bench 2.0、GPT 5.5 ProはHLEツールありとBrowseCompで首位です [6]。 Kimi K2.6は同じ一斉比較には入っていませんが、Hugging FaceのカードではSWE Bench Verified 80.2、SWE Bench Pro 58.6、Terminal Bench 2.0 66.7を示します [25][37]。

次の実践では何をすればいいでしょうか?

DeepSeek V4は表の首位ではない一方、公開API価格は100万inputトークンあたり1.74ドル、outputあたり3.48ドルとされ、コスト重視なら検証候補です [14][19]。

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較:2026年ベンチマークの結論」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか?

この回答を「DeepSeek V4を技術面から読む:100万トークン、MoE、API移行の要点」と照合してください。

関連ページを開く

研究を続けてください

研究に関する会話

あなた

リサーチクエスチョン

Изучите показатели GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 в бенчмарках. Пожалуйста, сделайте отчёт удобным для чтения.

Studio Global AI40 ソース

引用された回答

Я нашёл сопоставимые данные не по всем четырём моделям в одном и том же независимом тестовом прогоне. Поэтому ниже — аккуратная сводка: GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max сравниваются по одной опубликованной таблице, а Kimi K2.6 добавлен по отдельной карточке модели; прямое сравнение с Kimi нужно считать ориентировочным, а не строго «один к одному» [9][15].

Key findings

  • Claude Opus 4.7 выглядит сильнейшим в GPQA Diamond: 94.2% против 93.6% у GPT-5.5 и 90.1% у DeepSeek-V4-Pro-Max [9].

  • Claude Opus 4.7 также лидирует в Humanity’s Last Exam без инструментов: 46.9% против 41.4% у GPT-5.5, 43.1% у GPT-5.5 Pro и 37.7% у DeepSeek-V4-Pro-Max [9].

  • GPT-5.5 Pro лидирует в Humanity’s Last Exam с инструментами: 57.2% против 54.7% у Claude Opus 4.7, 52.2% у GPT-5.5 и 48.2% у DeepSeek-V4-Pro-Max [9].

  • GPT-5.5 заметно впереди в Terminal-Bench 2.0: 82.7% против 69.4% у Claude Opus 4.7, 67.9% у DeepSeek-V4-Pro-Max и 66.7% у Kimi K2.6 [9][15].

  • Kimi K2.6 выглядит очень сильной открытой/доступной по весам моделью для coding-бенчмарков: карточка модели указывает 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro, 76.7 на SWE-Bench Multilingual и 66.7 на Terminal-Bench 2.0 [15].

  • DeepSeek-V4-Pro-Max в найденной таблице стабильно ниже GPT-5.5 и Claude Opus 4.7 по GPQA, HLE и Terminal-Bench 2.0, но остаётся близко к Claude в Terminal-Bench 2.0: 67.9% против 69.4% [9].

Сводная таблица

БенчмаркGPT-5.5GPT-5.5 ProClaude Opus 4.7DeepSeek-V4-Pro-MaxKimi K2.6Кто впереди
GPQA Diamond93.6% [9]н/д94.2% [9]90.1% [9]н/дClaude Opus 4.7
Humanity’s Last Exam, без инструментов41.4% [9]43.1% [9]46.9% [9]37.7% [9]н/дClaude Opus 4.7
Humanity’s Last Exam, с инструментами52.2% [9]57.2% [9]54.7% [9]48.2% [9]н/дGPT-5.5 Pro
Terminal-Bench 2.082.7% [9]н/д69.4% [9]67.9% [9]66.7 [15]GPT-5.5
SWE-Bench Verifiedн/дн/дн/дн/д80.2 [15]недостаточно данных
SWE-Bench Proн/дн/дн/дн/д58.6 [15]недостаточно данных
SWE-Bench Multilingualн/дн/дн/дн/д76.7 [15]недостаточно данных

По моделям

GPT-5.5

  • GPT-5.5 показывает лучший найденный результат в Terminal-Bench 2.0 среди сопоставленных моделей: 82.7% [9].

  • GPT-5.5 уступает Claude Opus 4.7 в GPQA Diamond: 93.6% против 94.2% [9].

  • GPT-5.5 уступает Claude Opus 4.7 в Humanity’s Last Exam без инструментов: 41.4% против 46.9% [9].

  • GPT-5.5 Pro, отдельный более сильный режим/вариант в найденной таблице, выходит на первое место в HLE с инструментами: 57.2% [9].

Claude Opus 4.7

  • Claude Opus 4.7 — лидер по GPQA Diamond среди моделей в найденной таблице: 94.2% [9].

  • Claude Opus 4.7 — лидер по HLE без инструментов: 46.9% [9].

  • Claude Opus 4.7 занимает второе место в HLE с инструментами после GPT-5.5 Pro: 54.7% против 57.2% [9].

  • В Terminal-Bench 2.0 Claude Opus 4.7 значительно уступает GPT-5.5: 69.4% против 82.7% [9].

Kimi K2.6

  • Kimi K2.6 имеет сильный профиль в coding-задачах: 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro и 76.7 на SWE-Bench Multilingual [15].

  • Kimi K2.6 набирает 66.7 в Terminal-Bench 2.0, что близко к DeepSeek-V4-Pro-Max 67.9 и Claude Opus 4.7 69.4, но заметно ниже GPT-5.5 82.7 [9][15].

  • Kimi K2.6 в найденных источниках описывается как новая сильная open-weights модель, а её карточка модели приводит отдельную таблицу результатов по coding и agentic-бенчмаркам [14][15].

DeepSeek V4

  • В найденной сопоставимой таблице указана именно версия DeepSeek-V4-Pro-Max, поэтому выводы по DeepSeek V4 лучше читать как выводы по этой конкретной версии, а не обязательно по всей линейке V4 [9].

  • DeepSeek-V4-Pro-Max показывает 90.1% на GPQA Diamond, что ниже GPT-5.5 93.6% и Claude Opus 4.7 94.2% [9].

  • DeepSeek-V4-Pro-Max показывает 37.7% на HLE без инструментов и 48.2% на HLE с инструментами, что ниже GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 в той же таблице [9].

  • В Terminal-Bench 2.0 DeepSeek-V4-Pro-Max набирает 67.9%, что почти на уровне Claude Opus 4.7 69.4%, но существенно ниже GPT-5.5 82.7% [9].

Evidence notes

  • Самая полезная найденная таблица сравнивает DeepSeek-V4-Pro-Max, GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 по GPQA Diamond, HLE и Terminal-Bench 2.0 [9].

  • Для Kimi K2.6 наиболее конкретные найденные цифры идут из карточки модели: Terminal-Bench 2.0 — 66.7, SWE-Bench Pro — 58.6, SWE-Bench Multilingual — 76.7, SWE-Bench Verified — 80.2 и OSWorld-Verified — 73.1 [15].

  • Источник по GPT-5.5 и Claude Opus 4.7 также указывает даты релиза: GPT-5.5 — 23 апреля 2026 года, Claude Opus 4.7 — 16 апреля 2026 года [10].

Limitations / uncertainty

  • Insufficient evidence для полностью строгого сравнения всех четырёх моделей в одном независимом прогоне с одинаковыми настройками, потому что Kimi K2.6 не присутствует в основной найденной таблице вместе с GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max [9][15].

  • Insufficient evidence для уверенного сравнения всех четырёх моделей по SWE-Bench Verified, потому что найденные конкретные SWE-Bench-цифры относятся к Kimi K2.6, а сопоставимые значения для GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max в доступных фрагментах не были полно представлены [15].

  • Результаты по DeepSeek относятся к варианту DeepSeek-V4-Pro-Max, поэтому их не следует автоматически переносить на все версии DeepSeek V4 [9].

Summary

Если смотреть только на найденные сопоставимые бенчмарки, Claude Opus 4.7 сильнее в GPQA и HLE без инструментов, GPT-5.5/GPT-5.5 Pro сильнее в Terminal-Bench 2.0 и HLE с инструментами, а DeepSeek-V4-Pro-Max держится близко к Claude в Terminal-Bench, но уступает в reasoning-тестах [9]. Kimi K2.6 выглядит особенно интересной для coding-сценариев благодаря 80.2 на SWE-Bench Verified и 58.6 на SWE-Bench Pro, но её нельзя строго ранжировать против всех трёх остальных моделей без единого общего тестового прогона [15].

情報源

  • [6] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    BenchmarkDeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, where shownClaude Opus 4.7Best result among these GPQA Diamond90.1%93.6%—94.2%Claude Opus 4.7 Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 Humanity’s Last Exam, with tools48.2%52.2%57.2%54...

  • [7] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai

    Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...

  • [14] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [15] DeepSeek V4 Preview: The Complete 2026 Guide - o-mega | AIo-mega.ai

    7. Head-to-Head: DeepSeek V4 vs Claude Opus 4.7 Claude Opus 4.7, released just eight days before DeepSeek V4 on April 16, represents Anthropic's most capable model and the current leader in agentic coding tasks. The comparison with V4-Pro reveals a more nua...

  • [19] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com

    DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...

  • [25] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co

    OSWorld-Verified 73.1 75.0 72.7 63.3 Coding Terminal-Bench 2.0 (Terminus-2) 66.7 65.4 65.4 68.5 50.8 SWE-Bench Pro 58.6 57.7 53.4 54.2 50.7 SWE-Bench Multilingual 76.7 77.8 76.9 73.0 SWE-Bench Verified 80.2 80.8 80.6 76.8 SciCode 52.2 56.6 51.9 58.9 48.7 OJ...

  • [33] Terminal-Bench 2.0 Leaderboardllm-stats.com

    Model Score Size Context Cost License --- --- --- 1 Anthropic Claude Mythos Preview Anthropic 0.820 — — $25.00 / $125.00 2 OpenAI GPT-5.3 Codex OpenAI 0.773 — 400K $1.75 / $14.00 3 OpenAI GPT-5.4 OpenAI 0.751 — 1.0M $2.50 / $15.00 4 Anthropic Claude Opus 4....

  • [37] .eval_results/swe_bench_verified.yaml · moonshotai/Kimi-K2.6 at mainhuggingface.co

    Hugging Face's logo moonshotai / Kimi-K2.6 like 1.04k Follow Moonshot AI 9.2k bigeagle's picture --- - dataset: id: SWE-bench/SWE-bench\ Verified task\ id: swe\ bench\ %\ resolved value: 80.2 date: '2026-04-20' source: url: name: Model Card user: SaylorTwift