studioglobal
トレンドを発見する
答え公開済み6 ソース

DeepSeek V4、Kimi K2.6、Claude Opus 4.7、GPT-5.5:ベンチマーク比較

単純な総合優勝は決めにくい。GPT 5.5はOpenAI公式でTerminal Bench 2.0が82.7%、SWE Bench Proが58.6%と示されている[24]。 コーディング系では、第三者データ上でClaude Opus 4.7がSWE Bench Pro、SWE Bench Verified、CursorBenchで優勢に見える[4]。

18K0
Illustration eines Benchmark-Dashboards für DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5
DeepSeek V4 vsBenchmark-Vergleiche zwischen Frontier-Modellen sind nur sinnvoll, wenn offizielle Werte, Sekundärdaten und eigene Evals getrennt betrachtet werden.
AI プロンプト

Create a landscape editorial hero image for this Studio Global article: DeepSeek V4 vs. Kimi K2.6 vs. Claude Opus 4.7 vs. GPT-5.5: Benchmark-Vergleich. Article summary: Es gibt keinen sauber belegten Gesamtsieger: GPT 5.5 ist offiziell mit 82,7% auf Terminal Bench 2.0 und 58,6% auf SWE Bench Pro belegt, während Claude Opus 4.7 in Sekundärdaten bei SWE bench stärker wirkt; für Kimi K2.... Topic tags: ai, llm, ai benchmarks, coding agents, developer tools. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.yo

openai.com

4つの最新LLMを横並びで比べるとき、最初に見るべきなのは「どのモデルが強いか」ではなく、「その数字はどこから来たのか」です。GPT-5.5については、OpenAIがTerminal-Bench 2.0とSWE-Bench Proの具体的な数値を公表しています[24]。一方、DeepSeek V4について公式に確認できる主な情報は、V4-ProとV4-FlashがDeepSeek APIで利用可能になったという点です[25]

Claude Opus 4.7やKimi K2.6を含む直接比較は、今回の範囲では主に第三者分析に依存します[4][6]。つまり、この記事の結論は「勝者をひとつ決める」よりも、「用途別にどれを最初に試すべきか」を整理するものです。

まず結論:用途別の有力候補

  • コード修正やGitHub Issue対応:引用されているSWE-Bench系、CursorBench系の数値では、Claude Opus 4.7がGPT-5.5より強く見える[4]
  • ターミナル操作を伴うエージェント:GPT-5.5が最も根拠を確認しやすい。OpenAIはTerminal-Bench 2.0で82.7%と公表している[24]
  • コスト重視のコーディングエージェント:Kimi K2.6は、CodeRouterにより100万トークンあたり入力0.60ドル、出力4.00ドルのコスト品質候補として説明されている[6]
  • DeepSeek V4:V4-ProとV4-Flashは公式にAPI提供されているが、今回のソース範囲では4モデルを同条件で並べた公式ベンチマーク表は確認できない[25]

数字の読み方:公式値と第三者データを混ぜない

OpenAIはTerminal-Bench 2.0を、計画、反復、ツール連携を必要とする複雑なコマンドライン作業を測るベンチマークとして説明し、GPT-5.5が82.7%を達成したとしている[24]。また、実際のGitHub Issue解決を評価するSWE-Bench Proでは、GPT-5.5が58.6%とされている[24]

DeepSeekの公式変更履歴では、DeepSeek APIがV4-ProとV4-Flashをサポートし、OpenAI ChatCompletions互換インターフェースとAnthropic互換インターフェースの両方から使えることが示されている。モデル指定はdeepseek-v4-prodeepseek-v4-flash[25]。これは「使える」ことの根拠にはなるが、「どのベンチマークで勝つか」の根拠にはならない。

Claude Opus 4.7とKimi K2.6については、ここで使える直接比較の多くがLushBinaryやCodeRouterなどの第三者ソースに基づく[4][6]。判断材料としては有用だが、公式発表値と同じ重みで扱うべきではない。

比較表:確認できる範囲のベンチマーク

「確認できず」は、今回のソース範囲では同条件で比較できる十分な数値が見つからないことを意味します。

ベンチマーク / 観点DeepSeek V4Kimi K2.6Claude Opus 4.7GPT-5.5
SWE-Bench Pro確認できずCodeRouterはGPT-5.5相当と記載[6]64.3%[4]58.6%[24]
SWE-Bench Verified確認できず確認できず87.6%[4]約85%[4]
Terminal-Bench 2.0確認できず確認できず約72%[4]82.7%[24]
GDPval / Knowledge Work確認できず確認できず約78%[4]84.9%[4]
OSWorld-Verified / Computer Use確認できず確認できず約65%[4]78.7%[4]
GPQA Diamond確認できず確認できず94.2%[4]約93%[4]
CursorBench確認できず確認できず70%[4]約65%[4]
Tau2-bench Telecom確認できず確認できず約90%[4]98.0%[4]
Vision & Document Arena確認できず確認できずArena報告で1位[1]確認できず
価格・コンテキストの目安V4 Flashは入力0.14ドル、出力0.28ドル / 100万トークン、1Mコンテキスト[6]入力0.60ドル、出力4.00ドル / 100万トークン[6]確認できず確認できず

コーディング:Claude Opus 4.7が優勢に見える

コード修正、リポジトリ理解、GitHub Issue対応のような用途では、今回引用できる数字だけを見るとClaude Opus 4.7が最も強く見える。LushBinaryはSWE-Bench ProでClaude Opus 4.7を64.3%、GPT-5.5を58.6%としており、GPT-5.5の58.6%はOpenAI自身の公表値とも一致する[4][24]。SWE-Bench VerifiedとCursorBenchでも、同じ第三者ソースではClaude Opus 4.7がGPT-5.5を上回る[4]

ただし、Kimi K2.6も無視しにくい。CodeRouterはKimi K2.6をSWE-Bench ProでGPT-5.5相当と位置づけ、同時に低いトークン単価を示している[6]。大量の試行、下書き生成、リトライを前提にする開発チームなら、最終精度だけでなく「受け入れ可能な成果1件あたりのコスト」で見る価値がある。

DeepSeek V4については、公式情報からコーディングベンチマークの勝敗までは読み取れない。確認できるのは、V4-ProとV4-FlashがAPIで利用可能という点だ[25]

ターミナル型エージェント:GPT-5.5の根拠が最も明確

シェルコマンド、ファイル操作、ツール連携を含むエージェント用途では、GPT-5.5が最も根拠を追いやすい。OpenAIはTerminal-Bench 2.0で82.7%と公表し、このベンチマークを複雑なコマンドラインワークフローのテストとして説明している[24]。LushBinaryは同じベンチマークでClaude Opus 4.7を約72%としている[4]

第三者データでは、Knowledge Work系のGDPvalでGPT-5.5が84.9%、Claude Opus 4.7が約78%、Computer Use系のOSWorld-VerifiedでGPT-5.5が78.7%、Claude Opus 4.7が約65%とされている[4]。GUIに近い操作やツールオーケストレーションを含む業務では、まずGPT-5.5から検証するのが自然だ。

Visionと文書処理:Claude Opus 4.7に強いシグナル

画像、文書、OCR、図表読み取りのようなマルチモーダル用途では、4モデルを同条件で並べた表は今回のソース範囲では見当たらない。比較材料として最も強いのは、Latent Space / AINewsが引用したArena報告で、Claude Opus 4.7がVision & Document Arenaで1位とされている点だ[1]

LLM Statsはさらに、Claude Opus 4.7が長辺2,576ピクセル、約3.75メガピクセルまでの画像を扱えると説明し、GPT-5.5については画像入力対応とMMMU-Proでツールなし81.2%、ツールあり83.2%という値を挙げている[5]。これはClaudeとGPT-5.5を考える材料にはなるが、Kimi K2.6やDeepSeek V4を含む完全な4者比較ではない。

価格性能:Kimi K2.6とDeepSeek V4 Flashは自社評価に入れたい

コスト面で最も分かりやすい候補はKimi K2.6だ。CodeRouterはKimi K2.6をコスト品質の勝者として説明し、100万トークンあたり入力0.60ドル、出力4.00ドルという価格を挙げている[6]

同じくCodeRouterは、DeepSeek V4 Flashを低コストのワークホース候補として、100万トークンあたり入力0.14ドル、出力0.28ドル、1Mコンテキストと記載している[6]。DeepSeek公式ドキュメントも、V4-ProとV4-Flashが現行APIで利用可能であることを確認している[25]

ただし、安いこととベンチマークで勝つことは別問題だ。実運用では、失敗による手戻り、再実行回数、レビュー時間まで含めて評価しなければならない。

4モデルを公平に試すなら

公開ベンチマークだけで導入モデルを決めるのは危険です。実際のコードベース、社内文書、顧客対応フロー、エージェント作業から小さな評価セットを作り、同じプロンプト、同じ制約、同じ採点基準で比較するのが現実的です。

見るべき指標は、初回回答の見栄えだけではありません。受け入れ可能な成果1件あたりのコスト、リトライ回数、重大な誤りの頻度、実行時間、レビュー担当者の負荷まで測るべきです。特にCoding Agentでは、ベンチマーク上の数%差よりも、失敗時にどれだけ安全に止まれるかが重要になる場合があります。

まとめ

今回の比較では、全分野で勝つ万能モデルは確認できない。Claude Opus 4.7はコーディング系ベンチマークで強く見え、GPT-5.5はターミナル型エージェントやComputer Useで最も根拠が明確だ。Kimi K2.6は価格性能の候補として目立ち、DeepSeek V4はAPIで使えるモデルとして自社評価に入れるべき段階にある[4][24][6][25]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

  • 単純な総合優勝は決めにくい。GPT 5.5はOpenAI公式でTerminal Bench 2.0が82.7%、SWE Bench Proが58.6%と示されている[24]。
  • コーディング系では、第三者データ上でClaude Opus 4.7がSWE Bench Pro、SWE Bench Verified、CursorBenchで優勢に見える[4]。
  • Kimi K2.6はコスト品質面の候補、DeepSeek V4はAPI利用可能な候補として見るのが現時点では安全だ[6][25]。

人々も尋ねます

「DeepSeek V4、Kimi K2.6、Claude Opus 4.7、GPT-5.5:ベンチマーク比較」の短い答えは何ですか?

単純な総合優勝は決めにくい。GPT 5.5はOpenAI公式でTerminal Bench 2.0が82.7%、SWE Bench Proが58.6%と示されている[24]。

最初に検証する重要なポイントは何ですか?

単純な総合優勝は決めにくい。GPT 5.5はOpenAI公式でTerminal Bench 2.0が82.7%、SWE Bench Proが58.6%と示されている[24]。 コーディング系では、第三者データ上でClaude Opus 4.7がSWE Bench Pro、SWE Bench Verified、CursorBenchで優勢に見える[4]。

次の実践では何をすればいいでしょうか?

Kimi K2.6はコスト品質面の候補、DeepSeek V4はAPI利用可能な候補として見るのが現時点では安全だ[6][25]。

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Securityとは:AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか?

この回答を「Grok 4.3 APIの読み方:100万トークン文脈と低単価でxAIは何を狙うのか」と照合してください。

関連ページを開く

研究を続けてください

研究に関する会話

あなた

リサーチクエスチョン

Vergleiche die Benchmarks von DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5.

Studio Global AI26 ソース

引用された回答

Ein sauberer Benchmark-Vergleich ist derzeit nur eingeschränkt möglich: Für Claude Opus 4.7 und GPT-5.5 kursieren konkrete Vergleichswerte, aber für DeepSeek V4 und Kimi K2.6 finde ich keine gleichwertig belastbaren offiziellen Benchmark-Tabellen in den verfügbaren Quellen. Daher: Claude Opus 4.7 wirkt bei SWE-bench stärker, GPT-5.5 bei Terminal-/Agent-/Computer-Use-Benchmarks; Kimi K2.6 wird vor allem als Preis-Leistungs-Modell beschrieben; DeepSeek V4 ist laut DeepSeek-API-Changelog verfügbar, aber ohne robuste öffentliche Benchmark-Abdeckung in den gefundenen Quellen [4][6].

Benchmark / KriteriumDeepSeek V4Kimi K2.6Claude Opus 4.7GPT-5.5
SWE-bench ProInsufficient evidencelaut Sekundärquelle etwa auf GPT-5.5-Niveau bzw. starkes Preis-Leistungs-Profil [6]64.3% [4]58.6% [4]
SWE-bench VerifiedInsufficient evidenceInsufficient evidence87.6% [4]ca. 85% [4]
Terminal-Bench 2.0Insufficient evidenceInsufficient evidenceca. 72% [4]82.7% [4]
GDPval / Knowledge WorkInsufficient evidenceInsufficient evidenceca. 78% [4]84.9% [4]
OSWorld-Verified / Computer UseInsufficient evidenceInsufficient evidenceca. 65% [4]78.7% [4]
Vision / Document ArenaInsufficient evidenceInsufficient evidencelaut Arena-Bericht Platz 1 in Vision & Document Arena [1]Insufficient evidence
Preis-LeistungInsufficient evidenceals starker Kosten-/Qualitäts-Kandidat beschrieben [6]teuer/stark, aber nicht als Kostenführer beschrieben [6]stark, aber nicht Kostenführer laut Vergleich [6]
  • Coding: Claude Opus 4.7 liegt in den gefundenen Zahlen bei SWE-bench Pro und SWE-bench Verified vor GPT-5.5 [4].

  • Agentic / Terminal / Computer Use: GPT-5.5 liegt in den gefundenen Vergleichswerten bei Terminal-Bench 2.0, GDPval und OSWorld-Verified vor Claude Opus 4.7 [4].

  • Multimodal/Vision: Claude Opus 4.7 wird in den gefundenen Arena-Berichten als führend in Vision & Document Arena beschrieben [1].

  • Kimi K2.6: Die verfügbaren Quellen beschreiben Kimi K2.6 eher als Preis-Leistungs- bzw. Open-Model-Kandidat; belastbare direkte Zahlen für alle Benchmarks neben den anderen drei Modellen fehlen in den gefundenen Quellen [6][8].

  • DeepSeek V4: DeepSeek V4-Pro und V4-Flash werden im DeepSeek-API-Changelog als verfügbar genannt, aber ich finde in den verfügbaren Quellen keine ausreichend belastbare offizielle Benchmark-Tabelle für einen fairen direkten Vergleich [6].

  • Wichtig: Die beste belastbare Aussage ist nicht “ein Modell gewinnt alles”, sondern: Claude Opus 4.7 ist nach den gefundenen Zahlen stärker bei SWE-bench, GPT-5.5 stärker bei Terminal-/Agent-/Computer-Use, Kimi K2.6 wahrscheinlich attraktiver bei Kosten pro Leistung, und DeepSeek V4 bleibt mangels öffentlicher Benchmark-Daten schwer einzuordnen [4][6].

情報源

  • [1] [AINews] Moonshot Kimi K2.6: the world's leading Open Model ...latent.space

    Arena results continued to matter for multimodal models. @arena reported Claude Opus 4.7 taking 1 in Vision & Document Arena, with +4 points over Opus 4.6 in Document Arena and a large margin over the next non-Anthropic models. Subcategory wins included dia...

  • [4] GPT-5.5 vs Claude Opus 4.7: Benchmarks, Pricing & Coding ...lushbinary.com

    Benchmark GPT-5.5 Opus 4.7 Gemini 3.1 Pro --- --- SWE-bench Pro 58.6% 64.3% 54.2% SWE-bench Verified 85% 87.6% 80% Terminal-Bench 2.0 82.7% 72% 68% GDPval (Knowledge Work) 84.9% 78% 75% OSWorld-Verified (Computer Use) 78.7% 65% 60% GPQA Diamond 93% 94.2% 91...

  • [5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com

    Vision: 3.75 MP vs Standard Opus 4.7 reads images at roughly 3.3× the resolution of any comparable model. Up to 2,576 pixels on the long edge ( 3.75 megapixels), versus 1,568 px ( 1.15 MP) on prior Claude models. Scores align: Opus 4.7 reports 91.0% on Char...

  • [6] GPT-5.5, DeepSeek V4, Kimi K2.6 at a Glance - CodeRoutercoderouter.io

    TL;DR — In one week (April 20–23, 2026), four frontier coding models shipped: Kimi K2.6 (Moonshot, Apr 20), GPT-5.5 (OpenAI, Apr 23), DeepSeek V4 Pro + V4 Flash (preview, April). Claude Opus 4.7 is still the SWE-Bench Pro champion. Kimi K2.6 is the new cost...

  • [24] Introducing GPT-5.5 - OpenAIopenai.com

    Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...

  • [25] Change Log | DeepSeek API Docsapi-docs.deepseek.com

    DeepSeek API Docs Logo DeepSeek API Docs Logo Change Log Date: 2026-04-24​ DeepSeek-V4​ The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the bas...