studioglobal
トレンドを発見する
レポート公開済み10 ソース

GPT-5.5 vs Claude Opus 4.7・DeepSeek V4・Kimi K2.6:ベンチマーク比較

GPT 5.5は、Artificial Analysisの抜粋でxhighが60点、highが59点と上位に入り、Claude Opus 4.7の57点を上回っています [2]。 Claude Opus 4.7はSWE Bench Proで64.3%と、GPT 5.5の58.6%を上回り、SWE Bench Verifiedでも87.6%と高い数値が示されています [20][22][24]。

17K0
Abstrakte Illustration eines KI-Benchmark-Dashboards mit mehreren konkurrierenden Sprachmodellen
GPT-5.5 vsKI-generierte redaktionelle Illustration zu einem Vergleich aktueller Sprachmodell-Benchmarks.
AI プロンプト

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 und Kimi K2.6: Benchmark-Vergleich. Article summary: GPT 5.5 ist in den verfügbaren Quellen der stärkste belegte Allrounder: Es führt den Artificial Analysis Index mit 60 Punkten in der xhigh Konfiguration und liegt bei BrowseComp mit 84,4 % vor Claude Opus 4.7.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB

openai.com

ベンチマーク比較でまず押さえたいのは、これは同じ条件で一斉に走った決勝レースではない、という点です。今回確認できる情報は、Artificial AnalysisのIndex抜粋、VentureBeatやMashableなどの比較、各社または二次分析による評価が混在しており、モデルの設定やテスト環境も完全にはそろっていません [2][3][7][21]

それでも実務目線では、かなり見えてくるものがあります。GPT-5.5は最も強く裏づけられた総合候補Claude Opus 4.7はコーディングと知識系で強いモデルDeepSeek V4は価格性能で目立つ挑戦者Kimi K2.6は技術仕様は興味深いが直接比較データ待ち、という読み方が現実的です [1][2][3][7][20][22][24]

まず結論:1モデルが全部勝つわけではない

GPT-5.5は、現時点で最も強く示されたオールラウンダーです。 Artificial Analysisの抜粋では、GPT-5.5 xhighが60点、GPT-5.5 highが59点で、Claude Opus 4.7の57点を上回っています [2]。BrowseCompでも、GPT-5.5は84.4%、DeepSeek V4は83.4%、Claude Opus 4.7は79.3%とされています [3]

Claude Opus 4.7は、ソフトウェア開発と知識系の指標で強みが目立ちます。 SWE-Bench ProではClaude Opus 4.7が64.3%、GPT-5.5が58.6%で、Claudeが上回ります [22][24]。GPQA DiamondでもClaude Opus 4.7は94.2%、GPT-5.5は93.6%と、Claudeがわずかに先行しています [8][22]。一方で、Terminal-Bench 2.0ではGPT-5.5が82.7%、Claude Opus 4.7が69.4%で、GPT-5.5が大きく上回ります [22][24]

DeepSeek V4は、価格性能のインパクトが大きいモデルです。 VentureBeatが引用するBrowseCompでは83.4%で、GPT-5.5の84.4%に1.0ポイント差まで迫り、Claude Opus 4.7の79.3%を上回っています [3]。Mashableが示すAPI価格では、DeepSeek V4は100万入力トークンあたり1.74米ドル、100万出力トークンあたり3.48米ドルで、GPT-5.5の5米ドル/30米ドル、Claude Opus 4.7の5米ドル/25米ドルより低くなっています [1]

Kimi K2.6は、今回の材料だけでは公平に順位づけできません。 DocsBotはKimi K2.6を、オープンソースでネイティブ・マルチモーダルなエージェント型モデル、1TパラメータMoE、32B有効パラメータ、256Kコンテキストを備えるモデルとして説明しています [7]。ただし、GPT-5.5、Claude Opus 4.7、DeepSeek V4と同じ土俵で並べられる十分なベンチマーク値は、今回のソースにはありません [7]

早見表:4モデルの読み方

モデル最も強く言えること主な数値実務での見方
GPT-5.5総合指標で最も強く裏づけられている [2]Intelligence Index:60 xhigh、59 high [2]。BrowseComp:84.4%、GPT-5.5 Proは90.1% [3]。Terminal-Bench 2.0:82.7% [22][24]まず試す総合候補。ただし全ベンチマークで勝つわけではありません。
Claude Opus 4.7SWE系、GPQA、一部の業務・エージェント指標で強い [20][22][24]Intelligence Index:57 [2]。SWE-Bench Pro:64.3% [22][24]。SWE-Bench Verified:87.6% [20]。GPQA Diamond:94.2% [8][22]コーディング、レビュー、知識系、金融系タスクで有力です。
DeepSeek V4BrowseCompでGPT-5.5にかなり近く、価格が低い [1][3]BrowseComp:83.4% [3]。API価格:100万入力トークンあたり1.74米ドル、100万出力トークンあたり3.48米ドル [1]コストを重視しつつ、Web調査系の性能も見たい場合に注目です。
Kimi K2.6オープンソースのマルチモーダル・エージェントモデルとして説明されている [7]1TパラメータMoE、32B有効パラメータ、256Kコンテキスト [7]技術検証の対象にはなりますが、今回の数値だけで順位づけするのは危険です。

なぜ単純な順位表では危ないのか

ベンチマークの数字は、偏差値やランキング表のように一列に並べたくなります。しかしAIモデル比較では、スコアの出どころや測定条件がかなり重要です。

DataCampは関連するフロンティアモデル比較で、一部のベンチマーク値がベンダー報告であり、異なるハーネス、つまり評価の実行環境や設定が使われている場合があると注意しています [21]。これは、今回のように複数ソースを横断して読む場合の大事な前提です。

さらに、モデル名が同じように見えても、設定が異なることがあります。Artificial AnalysisではGPT-5.5 xhigh、GPT-5.5 high、Claude Opus 4.7 Adaptive Reasoning, Max Effortが並んでいます [2]。VentureBeatのDeepSeek側の表現はDeepSeek-V4-Pro-Maxです [3]。推論、コーディング、エージェント作業では、こうした設定差が結果に影響しうるため、単純な1位・2位だけで判断するのは避けたいところです [2][3][21]

総合指標:GPT-5.5が一歩リード

今回のソースで最もわかりやすい総合指標は、Artificial AnalysisのIntelligence Index抜粋です。ここではGPT-5.5 xhighが60点で1位、GPT-5.5 highが59点で2位、Claude Opus 4.7 Adaptive Reasoning, Max Effortが57点で3位とされています [2]

この範囲では、GPT-5.5がClaude Opus 4.7に対して小さいながらも明確な差をつけています [2]。ただし、同じ抜粋からDeepSeek V4とKimi K2.6を含めた4モデルの完全な数値比較はできません [2][7]

BrowseComp:DeepSeek V4がGPT-5.5にかなり近い

BrowseCompは、GPT-5.5、Claude Opus 4.7、DeepSeek V4を直接見比べやすい数少ない材料です。VentureBeatによると、GPT-5.5 Proは90.1%、GPT-5.5は84.4%、DeepSeek V4は83.4%、Claude Opus 4.7は79.3%です [3]

モデルまたはバリアントBrowseComp読み方
GPT-5.5 Pro90.1%この抜粋では明確にトップ [3]
GPT-5.584.4%DeepSeek V4をわずかに上回る [3]
DeepSeek V483.4%GPT-5.5との差は1.0ポイント [3]
Claude Opus 4.779.3%この指標ではGPT-5.5とDeepSeek V4の後ろ [3]
Kimi K2.6直接比較できる値なし今回のソースだけでは順位づけ不可 [7]

ただし、VentureBeatはDeepSeek-V4-Pro-Maxについて、直接比較できるベンチマーク全体でGPT-5.5やClaude Opus 4.7を退けたようには見えない、と整理しています [3]。つまり、BrowseCompでDeepSeek V4が非常に強いことは確かですが、それだけで総合勝利とは言えません [3]

コーディング:SWE系はClaude、Terminal系はGPT-5.5

コーディング領域では、どのベンチマークを見るかで勝者が変わります。SWE-Bench ProではClaude Opus 4.7が64.3%、GPT-5.5が58.6%で、Claudeが上です [22][24]。VellumはClaude Opus 4.7のSWE-Bench Verifiedを87.6%としています [20]

一方、Terminal-Bench 2.0ではGPT-5.5が82.7%、Claude Opus 4.7が69.4%で、GPT-5.5が大きく先行します [22][24]

ベンチマークGPT-5.5Claude Opus 4.7読み方
SWE-Bench Pro58.6%64.3%Claudeが上 [22][24]
SWE-Bench Verified今回のソースでは直接値なし87.6%Claudeの強い値だが、4モデル比較ではない [20]
Terminal-Bench 2.082.7%69.4%GPT-5.5が大きく上 [22][24]

DeepSeek V4について、VentureBeatは複数の直接比較可能なベンチマークで上位モデルに近いと説明していますが、今回の抜粋で最もはっきりした数値はBrowseCompです [3]。Kimi K2.6についても、DocsBotは長期コーディングやエージェント性能の向上を説明していますが、GPT-5.5、Claude Opus 4.7、DeepSeek V4と同じ表で比べられる十分な数値はありません [7]

推論・知識・業務タスク:GPTとClaudeの差は用途次第

知識・推論系では、GPT-5.5とClaude Opus 4.7はかなり接近しています。GPQA DiamondではGPT-5.5が93.6%、Claude Opus 4.7が94.2%で、Claudeがわずかに上です [8][22]

Mashableが示すHumanity’s Last Examでは、ツールなしではGPT-5.5が40.6%、Claude Opus 4.7が31.2%でGPT-5.5が上ですが、ツールありではGPT-5.5が52.2%、Claude Opus 4.7が54.7%でClaudeがわずかに上回ります [8]

ベンチマークGPT-5.5Claude Opus 4.7この数値での優位
GPQA Diamond93.6%94.2%Claudeがわずかに上 [8][22]
Humanity’s Last Exam40.6%31.2%GPT-5.5が上 [8]
Humanity’s Last Exam、ツールあり52.2%54.7%Claudeがわずかに上 [8]

業務・エージェント系の指標でも、勝者は固定ではありません。VellumはGDPvalでGPT-5.5が84.9%、Claude Opus 4.7が80.3%、OSWorld-VerifiedでGPT-5.5が78.7%、Claude Opus 4.7が78.0%、MCP AtlasでGPT-5.5が75.3%、Claude Opus 4.7が79.1%としています [22]。OpenAIはFinanceAgent v1.1でGPT-5.5を60.0%、Claude Opus 4.7を64.4%と示しています [24]

ベンチマークGPT-5.5Claude Opus 4.7読み方
GDPval84.9%80.3%GPT-5.5が上 [22][24]
OSWorld-Verified78.7%78.0%GPT-5.5が僅差で上 [22]
MCP Atlas75.3%79.1%Claudeが上 [22]
FinanceAgent v1.160.0%64.4%Claudeが上 [24]

Anthropicは社内のResearch Agent Benchmarkにも触れており、Claude Opus 4.7が6モジュール全体で最高総合スコア0.715を分け合い、General FinanceではOpus 4.6の0.767に対して0.813を記録したと説明しています [6]。ただし、これは社内ベンチマークであり、今回の4モデルを独立に同条件で並べた表ではないため、Claudeのエージェント系の強さを示す参考情報として読むのが妥当です [6]

価格とコンテキスト:DeepSeek V4の存在感が大きい

API利用では、最高スコアだけでなく、入力・出力トークンあたりの単価が効いてきます。Mashableによると、DeepSeek V4は100万入力トークンあたり1.74米ドル、100万出力トークンあたり3.48米ドルで、コンテキストウィンドウは100万トークンです [1]

同じソースでは、GPT-5.5は100万入力トークンあたり5米ドル、100万出力トークンあたり30米ドル、Claude Opus 4.7は100万入力トークンあたり5米ドル、100万出力トークンあたり25米ドルで、いずれも100万トークンのコンテキストウィンドウとされています [1]

モデル入力価格、100万トークンあたり出力価格、100万トークンあたりコンテキスト
DeepSeek V41.74米ドル3.48米ドル100万トークン [1]
GPT-5.55米ドル30米ドル100万トークン [1]
Claude Opus 4.75米ドル25米ドル100万トークン [1]
Kimi K2.6今回のソースでは確認できる直接価格なし今回のソースでは確認できる直接価格なし256Kトークン [7]

Kimi K2.6については、DocsBotが256Kコンテキスト、1TパラメータMoE、32B有効パラメータ、最大300サブエージェント、4,000の協調ステップに対応するエージェント・オーケストレーションを説明しています [7]。これは技術仕様としては重要ですが、GPT-5.5、Claude Opus 4.7、DeepSeek V4と同じ基準で価格や性能を比較する材料にはまだ不足しています [7]

用途別に選ぶなら

重視すること最初に試したいモデル理由
強く裏づけられた総合力GPT-5.5Artificial Analysisの抜粋で上位に立ち、BrowseCompでもClaude Opus 4.7を上回り、DeepSeek V4にもわずかに先行しています [2][3]
SWE系のソフトウェア開発Claude Opus 4.7SWE-Bench ProでGPT-5.5を上回り、SWE-Bench Verifiedでも87.6%とされています [20][22][24]
Terminal系、コンピュータ操作、実行型タスクGPT-5.5Terminal-Bench 2.0で82.7%と、Claude Opus 4.7の69.4%を大きく上回ります [22][24]
Web調査系の性能とAPIコストDeepSeek V4BrowseCompで83.4%とGPT-5.5に迫り、引用されているAPI価格も低くなっています [1][3]
オープンなマルチモーダル・エージェントモデルの検証Kimi K2.6オープンソース、ネイティブ・マルチモーダル、256Kコンテキストのエージェントモデルとして説明されていますが、直接比較値は不足しています [7]

まとめ

今回の比較で最も大事なのは、単独の絶対王者を探すより、用途ごとの強みを見ることです。

総合的な裏づけが最も強いのはGPT-5.5です。Artificial Analysisの抜粋でトップに立ち、BrowseCompや複数の業務系指標でも強い数値を示しています [2][3][22][24]

Claude Opus 4.7は、SWE-Bench Pro、SWE-Bench Verified、GPQA Diamond、FinanceAgent v1.1などで存在感があります [20][22][24]。コード生成だけでなく、レビュー、知識処理、金融系のエージェント作業でも検討対象になります。

DeepSeek V4は、BrowseCompでGPT-5.5にかなり近い数値を出しながら、引用されているAPI価格が低い点で目立ちます [1][3]。コストを重視するチームにとっては、単なる下位候補ではなく、十分に検証する価値のある選択肢です。

Kimi K2.6は、今回のソースだけで上げ下げするべきではありません。オープンソースのマルチモーダル・エージェントモデルとしての仕様は魅力的ですが、公平に順位づけるには、同じ条件での直接ベンチマークと価格情報が必要です [7]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

  • GPT 5.5は、Artificial Analysisの抜粋でxhighが60点、highが59点と上位に入り、Claude Opus 4.7の57点を上回っています [2]。
  • Claude Opus 4.7はSWE Bench Proで64.3%と、GPT 5.5の58.6%を上回り、SWE Bench Verifiedでも87.6%と高い数値が示されています [20][22][24]。
  • DeepSeek V4はBrowseCompで83.4%と、GPT 5.5の84.4%に1.0ポイント差まで迫り、API価格も引用値では大幅に低くなっています [1][3]。
  • Kimi K2.6はオープンソースのマルチモーダル・エージェントモデルとして技術的には注目できますが、今回のソースだけでは4モデル横並びの数値比較はできません [7]。

人々も尋ねます

「GPT-5.5 vs Claude Opus 4.7・DeepSeek V4・Kimi K2.6:ベンチマーク比較」の短い答えは何ですか?

GPT 5.5は、Artificial Analysisの抜粋でxhighが60点、highが59点と上位に入り、Claude Opus 4.7の57点を上回っています [2]。

最初に検証する重要なポイントは何ですか?

GPT 5.5は、Artificial Analysisの抜粋でxhighが60点、highが59点と上位に入り、Claude Opus 4.7の57点を上回っています [2]。 Claude Opus 4.7はSWE Bench Proで64.3%と、GPT 5.5の58.6%を上回り、SWE Bench Verifiedでも87.6%と高い数値が示されています [20][22][24]。

次の実践では何をすればいいでしょうか?

DeepSeek V4はBrowseCompで83.4%と、GPT 5.5の84.4%に1.0ポイント差まで迫り、API価格も引用値では大幅に低くなっています [1][3]。

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較:2026年ベンチマークの結論」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか?

この回答を「DeepSeek V4を技術面から読む:100万トークン、MoE、API移行の要点」と照合してください。

関連ページを開く

研究を続けてください

研究に関する会話

あなた

リサーチクエスチョン

Recherchieren Sie die Benchmarks von Claude Opus 4.7, GPT-5.5, DeepSeek V4 und Kimi K2.6 und vergleichen Sie sie so umfassend wie möglich im Format eines Forschungsberichts, damit alle sie leicht verstehen können.

Studio Global AI26 ソース

引用された回答

Auf Basis der vorliegenden Belege wirkt GPT-5.5 insgesamt am stärksten belegt: Es führt im genannten „Intelligence Index“ und liegt auch bei BrowseComp vor Claude Opus 4.7 und knapp vor DeepSeek V4 [6][7]. DeepSeek V4 ist besonders auffällig, weil es bei BrowseComp Claude Opus 4.7 schlägt und GPT-5.5 fast erreicht, aber die verfügbaren Belege reichen nicht, um es insgesamt vor GPT-5.5 oder Claude Opus 4.7 einzuordnen [7]. Für Kimi K2.6 fehlen belastbare Zahlenwerte; hier ist die Evidenz deutlich schwächer [21].

Key findings

  • GPT-5.5 wird im verfügbaren Artificial-Analysis-Ausschnitt als Nummer 1 und 2 des „Intelligence Index“ geführt: GPT-5.5 „xhigh“ mit 60 Punkten und GPT-5.5 „high“ mit 59 Punkten [6].

  • Claude Opus 4.7 wird im selben Ausschnitt mit „Adaptive Reasoning, Max Effort“ bei 57 Punkten genannt und damit hinter GPT-5.5 xhigh und GPT-5.5 high eingeordnet [6].

  • Bei BrowseComp erreicht DeepSeek V4 laut verfügbarem Bericht 83,4 %, Claude Opus 4.7 79,3 % und GPT-5.5 84,4 %; GPT-5.5 Pro liegt mit 90,1 % deutlich höher [7].

  • DeepSeek V4 schlägt Claude Opus 4.7 in BrowseComp, liegt dort aber knapp hinter GPT-5.5 und klar hinter GPT-5.5 Pro [7].

  • Trotz des starken BrowseComp-Werts heißt es im verfügbaren Bericht, DeepSeek-V4-Pro-Max entthrone GPT-5.5 oder Claude Opus 4.7 auf den direkt vergleichbaren Benchmarks insgesamt nicht [7].

  • Für Claude Opus 4.7 liegen mehrere konkrete Benchmarkwerte vor: SWE-bench Pro 64,3 %, SWE-bench Verified 87,6 %, Terminal-Bench 69,4 % und GPQA Diamond 94,2 % [3].

  • Ein weiterer verfügbarer Benchmarkhinweis nennt Claude Opus 4.7 mit 82,7 % auf FinanceBench, allerdings stammt dieser Wert aus einem sekundären Blogkontext und sollte vorsichtig interpretiert werden [2].

  • Für Kimi K2.6 enthält die verfügbare Evidenz keine belastbaren numerischen Benchmarkwerte; ein Reddit-Beitrag behauptet lediglich, DeepSeek V4 sei im „Vibe Code Benchmark“ das führende Open-Weight-Modell und Kimi K2.6 liege dort auf Platz 2 [21].

Vergleichstabelle

ModellBeste verfügbare EvidenzGenannte BenchmarkwerteEinordnung
GPT-5.5Führt den „Intelligence Index“ in zwei Varianten [6]Intelligence Index: 60 xhigh, 59 high; BrowseComp: 84,4 %; GPT-5.5 Pro BrowseComp: 90,1 % [6][7]Stärkster belegt unter den vier Modellen, vor allem im Intelligence Index und bei BrowseComp [6][7]
Claude Opus 4.7Platz 3 im genannten Intelligence Index-Ausschnitt [6]Intelligence Index: 57; BrowseComp: 79,3 %; SWE-bench Pro: 64,3 %; SWE-bench Verified: 87,6 %; Terminal-Bench: 69,4 %; GPQA Diamond: 94,2 %; FinanceBench: 82,7 % [2][3][6][7]Sehr stark belegt, aber in den verfügbaren Vergleichsdaten hinter GPT-5.5 und bei BrowseComp hinter DeepSeek V4 [6][7]
DeepSeek V4Sehr stark bei BrowseComp [7]BrowseComp: 83,4 %; API-Preis: $1.74 pro 1 Mio. Input-Tokens und $3.48 pro 1 Mio. Output-Tokens [5][7]Nahe an GPT-5.5 bei BrowseComp und besser als Claude Opus 4.7 in diesem Benchmark, aber nicht klarer Gesamtsieger [7]
Kimi K2.6Nur schwacher Rankinghinweis aus Reddit [21]Keine belastbaren Zahlenwerte in der bereitgestellten Evidenz [21]Insufficient evidence: Keine solide numerische Einordnung möglich [21]

Benchmark-für-Benchmark-Vergleich

Intelligence Index

  • GPT-5.5 liegt im verfügbaren Ausschnitt des „Intelligence Index“ auf Platz 1 mit 60 Punkten in der xhigh-Konfiguration und auf Platz 2 mit 59 Punkten in der high-Konfiguration [6].

  • Claude Opus 4.7 liegt in der Konfiguration „Adaptive Reasoning, Max Effort“ bei 57 Punkten und wird damit hinter beiden GPT-5.5-Varianten genannt [6].

  • Für DeepSeek V4 und Kimi K2.6 werden im verfügbaren Ausschnitt keine konkreten Intelligence-Index-Werte genannt [6].

BrowseComp

  • GPT-5.5 erreicht bei BrowseComp 84,4 %, während GPT-5.5 Pro 90,1 % erreicht [7].

  • DeepSeek V4 erreicht bei BrowseComp 83,4 % und liegt damit sehr knapp hinter GPT-5.5, aber deutlich hinter GPT-5.5 Pro [7].

  • Claude Opus 4.7 erreicht bei BrowseComp 79,3 % und liegt damit hinter DeepSeek V4 und GPT-5.5 [7].

  • Kimi K2.6 hat in der bereitgestellten Evidenz keinen BrowseComp-Wert [7][21].

Coding- und Software-Benchmarks

  • Claude Opus 4.7 wird mit 64,3 % auf SWE-bench Pro und 87,6 % auf SWE-bench Verified angegeben [3].

  • Claude Opus 4.7 wird außerdem mit etwa 70 % auf CursorBench genannt, aber dieser Vergleich stammt aus einem Kontext zu GPT-5.4, nicht GPT-5.5 [4].

  • Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine direkt vergleichbaren SWE-bench-Pro- oder SWE-bench-Verified-Werte vor [3][4][7][21].

  • Ein Reddit-Beitrag behauptet, DeepSeek V4 sei im „Vibe Code Benchmark“ das führende Open-Weight-Modell und Kimi K2.6 liege dahinter auf Platz 2, aber dieser Beleg ist schwächer als die übrigen Quellen und enthält im Ausschnitt keine konkreten Prozentwerte [21].

Reasoning- und Wissens-Benchmarks

  • Claude Opus 4.7 wird mit 94,2 % auf GPQA Diamond angegeben [3].

  • Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine direkt vergleichbaren GPQA-Diamond-Werte vor [3][6][7][21].

FinanceBench

  • Claude Opus 4.7 wird in einem verfügbaren Blogausschnitt mit 82,7 % auf FinanceBench erwähnt [2].

  • Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine FinanceBench-Werte vor [2][5][7][21].

Preis- und Kontextvergleich

  • DeepSeek V4 wird mit $1.74 pro 1 Million Input-Tokens und $3.48 pro 1 Million Output-Tokens bei einem Kontextfenster von 1 Million Tokens angegeben [5].

  • GPT-5.5 wird mit $5 pro 1 Million Input-Tokens und $30 pro 1 Million Output-Tokens bei einem Kontextfenster von 1 Million Tokens angegeben [5].

  • Für Claude Opus 4.7 ist im verfügbaren Ausschnitt nur der Beginn einer Preisangabe erkennbar, aber kein vollständiger Output-Preis, daher reicht die Evidenz für einen vollständigen Kostenvergleich nicht aus [5].

  • Für Kimi K2.6 enthält die bereitgestellte Evidenz keinen Preiswert [5][21].

Verständliche Einordnung

  • Wenn man nur die verfügbaren Zahlen betrachtet, ist GPT-5.5 der sicherste Kandidat für die stärkste Gesamtleistung, weil es den genannten Intelligence Index anführt und bei BrowseComp vor DeepSeek V4 und Claude Opus 4.7 liegt [6][7].

  • DeepSeek V4 ist der stärkste Herausforderer in den verfügbaren Zahlen, weil es bei BrowseComp mit 83,4 % fast GPT-5.5 erreicht und Claude Opus 4.7 übertrifft [7].

  • Claude Opus 4.7 ist am breitesten mit konkreten Einzelbenchmarks belegt, vor allem in SWE-bench, Terminal-Bench, GPQA Diamond und FinanceBench [2][3].

  • Kimi K2.6 kann anhand der bereitgestellten Evidenz nicht fair numerisch mit den anderen drei Modellen verglichen werden, weil die einzige konkrete Aussage nur ein schwacher Reddit-Rankinghinweis ohne Zahlenwerte ist [21].

Evidence notes

  • Die stärksten quantitativen Vergleichsdaten in der bereitgestellten Evidenz sind der Intelligence-Index-Ausschnitt und der BrowseComp-Vergleich, weil sie mehrere der angefragten Modelle direkt nebeneinander nennen [6][7].

  • Die Claude-Opus-4.7-Werte zu SWE-bench Pro, SWE-bench Verified, Terminal-Bench und GPQA Diamond sind nützlich, aber sie erlauben keinen vollständigen Vier-Modell-Vergleich, weil entsprechende Werte für GPT-5.5, DeepSeek V4 und Kimi K2.6 in der Evidenz fehlen [3].

  • Der Kimi-K2.6-Hinweis ist deutlich schwächer, weil er aus einem Reddit-Beitrag stammt und im verfügbaren Ausschnitt keine numerischen Ergebnisse enthält [21].

  • Ein Vergleich mit GPT-5.4 ist nur indirekt relevant, weil die Nutzerfrage GPT-5.5 betrifft; die verfügbare Quelle nennt dort außerdem, dass Benchmarkwerte teils vendor-reported sind und unterschiedliche Harness-Konfigurationen nutzen [4].

Limitations / uncertainty

  • Insufficient evidence: Für Kimi K2.6 fehlen belastbare Benchmarkzahlen in der bereitgestellten Evidenz [21].

  • Insufficient evidence: Für GPT-5.5 fehlen in der bereitgestellten Evidenz konkrete Werte zu SWE-bench, GPQA Diamond, Terminal-Bench, FinanceBench und Vibe Code [6][7].

  • Insufficient evidence: Für DeepSeek V4 fehlen in der bereitgestellten Evidenz konkrete Werte zu SWE-bench, GPQA Diamond, Terminal-Bench und FinanceBench [5][7][21].

  • Die Modelle werden teils in unterschiedlichen Varianten oder Testmodi genannt, etwa GPT-5.5 xhigh, GPT-5.5 high, Claude Opus 4.7 „Adaptive Reasoning, Max Effort“ und DeepSeek-V4-Pro-Max, wodurch ein 1:1-Vergleich nur eingeschränkt möglich ist [6][7].

  • Die bereitgestellte Evidenz enthält keine vollständigen offiziellen Modellkarten oder Primärquellen mit einheitlichem Benchmark-Setup für alle vier Modelle [1][3][6][7].

Summary

  • GPT-5.5: Beste belegte Gesamtposition, führt den Intelligence Index und liegt bei BrowseComp vor DeepSeek V4 und Claude Opus 4.7 [6][7].

  • DeepSeek V4: Sehr stark bei BrowseComp, knapp hinter GPT-5.5 und vor Claude Opus 4.7; außerdem deutlich günstiger als GPT-5.5 in der verfügbaren Preisangabe [5][7].

  • Claude Opus 4.7: Sehr gut dokumentiert mit vielen Einzelbenchmarks, aber in den direkt verfügbaren Vergleichszahlen hinter GPT-5.5 und bei BrowseComp hinter DeepSeek V4 [2][3][6][7].

  • Kimi K2.6: Nicht seriös numerisch bewertbar, weil die bereitgestellte Evidenz nur einen schwachen Rankinghinweis ohne konkrete Zahlen enthält [21].

情報源

  • [1] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [2] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6artificialanalysis.ai

    What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...

  • [3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    BrowseComp is the standout: DeepSeek’s 83.4% beats Claude Opus 4.7’s 79.3% and nearly matches GPT-5.5’s 84.4%, though GPT-5.5 Pro’s 90.1% remains well ahead. So ultimately, DeepSeek-V4-Pro-Max does not appear to dethrone GPT-5.5 or Claude Opus 4.7 on the be...

  • [6] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...

  • [7] Kimi K2.6 vs DeepSeek-V4 Pro - DocsBot AIdocsbot.ai

    Kimi K2.6 Kimi K2.6 is Moonshot AI's latest open-source native multimodal agentic model, advancing long-horizon coding, coding-driven design, proactive autonomous execution, and swarm-based task orchestration. It keeps the Kimi K2.5 1T parameter MoE archite...

  • [8] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com

    Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...

  • [20] Claude Opus 4.7 Benchmarks Explained - Vellumvellum.ai

    Is Claude Opus 4.7 the most powerful Claude model? No. Claude Mythos Preview is Anthropic's most capable model and leads Opus 4.7 on most benchmarks in the comparison table, including SWE-bench Pro (77.8% vs 64.3%), SWE-bench Verified (93.9% vs 87.6%), Term...

  • [21] Claude Opus 4.7 vs. GPT-5.4: Which Frontier Model Should You Use?datacamp.com

    --- --- Benchmark Claude Opus 4.7 GPT-5.4 Notes SWE-bench Pro 64.3% 57.7% Vendor-reported; different harness configurations SWE-bench Verified 87.6% Not published OpenAI has not released an official score on this variant CursorBench 70% Not published Cursor...

  • [22] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [24] Introducing GPT-5.5 - OpenAIopenai.com

    Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...