ベンチマーク比較でまず押さえたいのは、これは同じ条件で一斉に走った決勝レースではない、という点です。今回確認できる情報は、Artificial AnalysisのIndex抜粋、VentureBeatやMashableなどの比較、各社または二次分析による評価が混在しており、モデルの設定やテスト環境も完全にはそろっていません [2][
3][
7][
21]。
それでも実務目線では、かなり見えてくるものがあります。GPT-5.5は最も強く裏づけられた総合候補、Claude Opus 4.7はコーディングと知識系で強いモデル、DeepSeek V4は価格性能で目立つ挑戦者、Kimi K2.6は技術仕様は興味深いが直接比較データ待ち、という読み方が現実的です [1][
2][
3][
7][
20][
22][
24]。
まず結論:1モデルが全部勝つわけではない
GPT-5.5は、現時点で最も強く示されたオールラウンダーです。 Artificial Analysisの抜粋では、GPT-5.5 xhighが60点、GPT-5.5 highが59点で、Claude Opus 4.7の57点を上回っています [2]。BrowseCompでも、GPT-5.5は84.4%、DeepSeek V4は83.4%、Claude Opus 4.7は79.3%とされています [
3]。
Claude Opus 4.7は、ソフトウェア開発と知識系の指標で強みが目立ちます。 SWE-Bench ProではClaude Opus 4.7が64.3%、GPT-5.5が58.6%で、Claudeが上回ります [22][
24]。GPQA DiamondでもClaude Opus 4.7は94.2%、GPT-5.5は93.6%と、Claudeがわずかに先行しています [
8][
22]。一方で、Terminal-Bench 2.0ではGPT-5.5が82.7%、Claude Opus 4.7が69.4%で、GPT-5.5が大きく上回ります [
22][
24]。
DeepSeek V4は、価格性能のインパクトが大きいモデルです。 VentureBeatが引用するBrowseCompでは83.4%で、GPT-5.5の84.4%に1.0ポイント差まで迫り、Claude Opus 4.7の79.3%を上回っています [3]。Mashableが示すAPI価格では、DeepSeek V4は100万入力トークンあたり1.74米ドル、100万出力トークンあたり3.48米ドルで、GPT-5.5の5米ドル/30米ドル、Claude Opus 4.7の5米ドル/25米ドルより低くなっています [
1]。
Kimi K2.6は、今回の材料だけでは公平に順位づけできません。 DocsBotはKimi K2.6を、オープンソースでネイティブ・マルチモーダルなエージェント型モデル、1TパラメータMoE、32B有効パラメータ、256Kコンテキストを備えるモデルとして説明しています [7]。ただし、GPT-5.5、Claude Opus 4.7、DeepSeek V4と同じ土俵で並べられる十分なベンチマーク値は、今回のソースにはありません [
7]。
早見表:4モデルの読み方
| モデル | 最も強く言えること | 主な数値 | 実務での見方 |
|---|---|---|---|
| GPT-5.5 | 総合指標で最も強く裏づけられている [ | Intelligence Index:60 xhigh、59 high [ | まず試す総合候補。ただし全ベンチマークで勝つわけではありません。 |
| Claude Opus 4.7 | SWE系、GPQA、一部の業務・エージェント指標で強い [ | Intelligence Index:57 [ | コーディング、レビュー、知識系、金融系タスクで有力です。 |
| DeepSeek V4 | BrowseCompでGPT-5.5にかなり近く、価格が低い [ | BrowseComp:83.4% [ | コストを重視しつつ、Web調査系の性能も見たい場合に注目です。 |
| Kimi K2.6 | オープンソースのマルチモーダル・エージェントモデルとして説明されている [ | 1TパラメータMoE、32B有効パラメータ、256Kコンテキスト [ | 技術検証の対象にはなりますが、今回の数値だけで順位づけするのは危険です。 |
なぜ単純な順位表では危ないのか
ベンチマークの数字は、偏差値やランキング表のように一列に並べたくなります。しかしAIモデル比較では、スコアの出どころや測定条件がかなり重要です。
DataCampは関連するフロンティアモデル比較で、一部のベンチマーク値がベンダー報告であり、異なるハーネス、つまり評価の実行環境や設定が使われている場合があると注意しています [21]。これは、今回のように複数ソースを横断して読む場合の大事な前提です。
さらに、モデル名が同じように見えても、設定が異なることがあります。Artificial AnalysisではGPT-5.5 xhigh、GPT-5.5 high、Claude Opus 4.7 Adaptive Reasoning, Max Effortが並んでいます [2]。VentureBeatのDeepSeek側の表現はDeepSeek-V4-Pro-Maxです [
3]。推論、コーディング、エージェント作業では、こうした設定差が結果に影響しうるため、単純な1位・2位だけで判断するのは避けたいところです [
2][
3][
21]。
総合指標:GPT-5.5が一歩リード
今回のソースで最もわかりやすい総合指標は、Artificial AnalysisのIntelligence Index抜粋です。ここではGPT-5.5 xhighが60点で1位、GPT-5.5 highが59点で2位、Claude Opus 4.7 Adaptive Reasoning, Max Effortが57点で3位とされています [2]。
この範囲では、GPT-5.5がClaude Opus 4.7に対して小さいながらも明確な差をつけています [2]。ただし、同じ抜粋からDeepSeek V4とKimi K2.6を含めた4モデルの完全な数値比較はできません [
2][
7]。
BrowseComp:DeepSeek V4がGPT-5.5にかなり近い
BrowseCompは、GPT-5.5、Claude Opus 4.7、DeepSeek V4を直接見比べやすい数少ない材料です。VentureBeatによると、GPT-5.5 Proは90.1%、GPT-5.5は84.4%、DeepSeek V4は83.4%、Claude Opus 4.7は79.3%です [3]。
| モデルまたはバリアント | BrowseComp | 読み方 |
|---|---|---|
| GPT-5.5 Pro | 90.1% | この抜粋では明確にトップ [ |
| GPT-5.5 | 84.4% | DeepSeek V4をわずかに上回る [ |
| DeepSeek V4 | 83.4% | GPT-5.5との差は1.0ポイント [ |
| Claude Opus 4.7 | 79.3% | この指標ではGPT-5.5とDeepSeek V4の後ろ [ |
| Kimi K2.6 | 直接比較できる値なし | 今回のソースだけでは順位づけ不可 [ |
ただし、VentureBeatはDeepSeek-V4-Pro-Maxについて、直接比較できるベンチマーク全体でGPT-5.5やClaude Opus 4.7を退けたようには見えない、と整理しています [3]。つまり、BrowseCompでDeepSeek V4が非常に強いことは確かですが、それだけで総合勝利とは言えません [
3]。
コーディング:SWE系はClaude、Terminal系はGPT-5.5
コーディング領域では、どのベンチマークを見るかで勝者が変わります。SWE-Bench ProではClaude Opus 4.7が64.3%、GPT-5.5が58.6%で、Claudeが上です [22][
24]。VellumはClaude Opus 4.7のSWE-Bench Verifiedを87.6%としています [
20]。
一方、Terminal-Bench 2.0ではGPT-5.5が82.7%、Claude Opus 4.7が69.4%で、GPT-5.5が大きく先行します [22][
24]。
| ベンチマーク | GPT-5.5 | Claude Opus 4.7 | 読み方 |
|---|---|---|---|
| SWE-Bench Pro | 58.6% | 64.3% | Claudeが上 [ |
| SWE-Bench Verified | 今回のソースでは直接値なし | 87.6% | Claudeの強い値だが、4モデル比較ではない [ |
| Terminal-Bench 2.0 | 82.7% | 69.4% | GPT-5.5が大きく上 [ |
DeepSeek V4について、VentureBeatは複数の直接比較可能なベンチマークで上位モデルに近いと説明していますが、今回の抜粋で最もはっきりした数値はBrowseCompです [3]。Kimi K2.6についても、DocsBotは長期コーディングやエージェント性能の向上を説明していますが、GPT-5.5、Claude Opus 4.7、DeepSeek V4と同じ表で比べられる十分な数値はありません [
7]。
推論・知識・業務タスク:GPTとClaudeの差は用途次第
知識・推論系では、GPT-5.5とClaude Opus 4.7はかなり接近しています。GPQA DiamondではGPT-5.5が93.6%、Claude Opus 4.7が94.2%で、Claudeがわずかに上です [8][
22]。
Mashableが示すHumanity’s Last Examでは、ツールなしではGPT-5.5が40.6%、Claude Opus 4.7が31.2%でGPT-5.5が上ですが、ツールありではGPT-5.5が52.2%、Claude Opus 4.7が54.7%でClaudeがわずかに上回ります [8]。
| ベンチマーク | GPT-5.5 | Claude Opus 4.7 | この数値での優位 |
|---|---|---|---|
| GPQA Diamond | 93.6% | 94.2% | Claudeがわずかに上 [ |
| Humanity’s Last Exam | 40.6% | 31.2% | GPT-5.5が上 [ |
| Humanity’s Last Exam、ツールあり | 52.2% | 54.7% | Claudeがわずかに上 [ |
業務・エージェント系の指標でも、勝者は固定ではありません。VellumはGDPvalでGPT-5.5が84.9%、Claude Opus 4.7が80.3%、OSWorld-VerifiedでGPT-5.5が78.7%、Claude Opus 4.7が78.0%、MCP AtlasでGPT-5.5が75.3%、Claude Opus 4.7が79.1%としています [22]。OpenAIはFinanceAgent v1.1でGPT-5.5を60.0%、Claude Opus 4.7を64.4%と示しています [
24]。
| ベンチマーク | GPT-5.5 | Claude Opus 4.7 | 読み方 |
|---|---|---|---|
| GDPval | 84.9% | 80.3% | GPT-5.5が上 [ |
| OSWorld-Verified | 78.7% | 78.0% | GPT-5.5が僅差で上 [ |
| MCP Atlas | 75.3% | 79.1% | Claudeが上 [ |
| FinanceAgent v1.1 | 60.0% | 64.4% | Claudeが上 [ |
Anthropicは社内のResearch Agent Benchmarkにも触れており、Claude Opus 4.7が6モジュール全体で最高総合スコア0.715を分け合い、General FinanceではOpus 4.6の0.767に対して0.813を記録したと説明しています [6]。ただし、これは社内ベンチマークであり、今回の4モデルを独立に同条件で並べた表ではないため、Claudeのエージェント系の強さを示す参考情報として読むのが妥当です [
6]。
価格とコンテキスト:DeepSeek V4の存在感が大きい
API利用では、最高スコアだけでなく、入力・出力トークンあたりの単価が効いてきます。Mashableによると、DeepSeek V4は100万入力トークンあたり1.74米ドル、100万出力トークンあたり3.48米ドルで、コンテキストウィンドウは100万トークンです [1]。
同じソースでは、GPT-5.5は100万入力トークンあたり5米ドル、100万出力トークンあたり30米ドル、Claude Opus 4.7は100万入力トークンあたり5米ドル、100万出力トークンあたり25米ドルで、いずれも100万トークンのコンテキストウィンドウとされています [1]。
| モデル | 入力価格、100万トークンあたり | 出力価格、100万トークンあたり | コンテキスト |
|---|---|---|---|
| DeepSeek V4 | 1.74米ドル | 3.48米ドル | 100万トークン [ |
| GPT-5.5 | 5米ドル | 30米ドル | 100万トークン [ |
| Claude Opus 4.7 | 5米ドル | 25米ドル | 100万トークン [ |
| Kimi K2.6 | 今回のソースでは確認できる直接価格なし | 今回のソースでは確認できる直接価格なし | 256Kトークン [ |
Kimi K2.6については、DocsBotが256Kコンテキスト、1TパラメータMoE、32B有効パラメータ、最大300サブエージェント、4,000の協調ステップに対応するエージェント・オーケストレーションを説明しています [7]。これは技術仕様としては重要ですが、GPT-5.5、Claude Opus 4.7、DeepSeek V4と同じ基準で価格や性能を比較する材料にはまだ不足しています [
7]。
用途別に選ぶなら
| 重視すること | 最初に試したいモデル | 理由 |
|---|---|---|
| 強く裏づけられた総合力 | GPT-5.5 | Artificial Analysisの抜粋で上位に立ち、BrowseCompでもClaude Opus 4.7を上回り、DeepSeek V4にもわずかに先行しています [ |
| SWE系のソフトウェア開発 | Claude Opus 4.7 | SWE-Bench ProでGPT-5.5を上回り、SWE-Bench Verifiedでも87.6%とされています [ |
| Terminal系、コンピュータ操作、実行型タスク | GPT-5.5 | Terminal-Bench 2.0で82.7%と、Claude Opus 4.7の69.4%を大きく上回ります [ |
| Web調査系の性能とAPIコスト | DeepSeek V4 | BrowseCompで83.4%とGPT-5.5に迫り、引用されているAPI価格も低くなっています [ |
| オープンなマルチモーダル・エージェントモデルの検証 | Kimi K2.6 | オープンソース、ネイティブ・マルチモーダル、256Kコンテキストのエージェントモデルとして説明されていますが、直接比較値は不足しています [ |
まとめ
今回の比較で最も大事なのは、単独の絶対王者を探すより、用途ごとの強みを見ることです。
総合的な裏づけが最も強いのはGPT-5.5です。Artificial Analysisの抜粋でトップに立ち、BrowseCompや複数の業務系指標でも強い数値を示しています [2][
3][
22][
24]。
Claude Opus 4.7は、SWE-Bench Pro、SWE-Bench Verified、GPQA Diamond、FinanceAgent v1.1などで存在感があります [20][
22][
24]。コード生成だけでなく、レビュー、知識処理、金融系のエージェント作業でも検討対象になります。
DeepSeek V4は、BrowseCompでGPT-5.5にかなり近い数値を出しながら、引用されているAPI価格が低い点で目立ちます [1][
3]。コストを重視するチームにとっては、単なる下位候補ではなく、十分に検証する価値のある選択肢です。
Kimi K2.6は、今回のソースだけで上げ下げするべきではありません。オープンソースのマルチモーダル・エージェントモデルとしての仕様は魅力的ですが、公平に順位づけるには、同じ条件での直接ベンチマークと価格情報が必要です [7]。




