レポート公開済み3 か月前Last edited 2 か月前18 ソース

GPT-5.5対Claude Opus 4.7対DeepSeek V4対Kimi K2.6：用途別に見る勝者

Claude Opus 4.7はGPQA Diamond 94.2%とツールなしHumanity’s Last Exam 46.9%でリードし、GPT 5.5はTerminal Bench 2.0 82.7%で大きく先行します[4][5]。 GPT 5.5 ProはツールありHumanity’s Last Exam 57.2%とBrowseComp 90.1%で首位。DeepSeek V4の主な魅力は、Opus 4.7やGPT 5.5の約6分の1というコスト性能の報告です[4]。

Studio Global AIで検索して事実確認さらにトレンドページを見る

Editorial illustration of GPT-5.5, Claude Opus 4.7, DeepSeek V4 and Kimi K2.6 compared across AI benchmark categories — GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark Winners by CategoryAI-generated editorial illustration for comparing frontier model benchmark winners by category.
AI プロンプト
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark Winners by Category. Article summary: No single model wins across the available 2026 benchmark evidence: Claude Opus 4.7 leads GPQA Diamond at 94.2% and Humanity’s Last Exam without tools at 46.9%, GPT 5.5 leads Terminal Bench 2.0 at 82.7%, and GPT 5.5 Pr.... Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "Kimi K2.6 ties GPT-5.5 on SWE-bench Pro at 5–6x lower cost — with agent swarms, 13-hour autonomous runs, and open weights. In practice it is the first open-source model that can su" source context "Kimi K2.6: The Complete Developer Guide (2026) - Codersera" Reference image 2: visual subject "# Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7: Which S
openai.com

ベンチマーク表だけを見ると、この4モデルの比較は単純に見えます。けれど実務で必要なのは、絶対的な総合王者ではなく、自分の仕事に近い負荷で強いモデルです。

今回もっとも横並びで読みやすい表は、GPT-5.5、利用可能な行でのGPT-5.5 Pro、Claude Opus 4.7、DeepSeek-V4-Pro-Maxを比較したものです。一方、Kimi K2.6は主に別の比較表に登場するため、全項目で同条件の4者比較とは言いにくい点に注意が必要です。

まず結論：用途別の勝者

用途	まず試す候補	根拠
科学推論	Claude Opus 4.7	GPQA Diamondで94.2%。GPT-5.5の93.6%、DeepSeek-V4-Pro-Maxの90.1%を上回ります。
ツールなしの専門推論	Claude Opus 4.7	Humanity’s Last Examのツールなしで46.9%。GPT-5.5 Proは43.1%、GPT-5.5は41.4%、DeepSeek-V4-Pro-Maxは37.7%です。
ツール併用の試験推論	GPT-5.5 Pro	Humanity’s Last Examのツールありで57.2%。Claude Opus 4.7の54.7%を上回ります。
端末操作・エージェント型計算	GPT-5.5	Terminal-Bench 2.0で82.7%。Claude Opus 4.7は69.4%、DeepSeek-V4-Pro-Maxは67.9%です。
OS操作	GPT-5.5	OSWorld-Verifiedで78.7%。Claude Opus 4.7の78.0%をわずかに上回ります。
高難度数学	GPT-5.5	FrontierMath Tiers 1–3で51.7%。Claude Opus 4.7は43.8%です。
ソフトウェアエンジニアリング	Claude Opus 4.7	共通表のSWE-Bench Pro / SWE Proで64.3%。GPT-5.5は58.6%、DeepSeek-V4-Pro-Maxは55.4%です。
ブラウジング	GPT-5.5 Pro	BrowseCompで90.1%。GPT-5.5は84.4%、DeepSeek-V4-Pro-Maxは83.4%、Claude Opus 4.7は79.3%です。
MCP型の公開ツールワークフロー	Claude Opus 4.7	MCP Atlas / MCPAtlas Publicで79.1%。GPT-5.5は75.3%、DeepSeek-V4-Pro-Maxは73.6%です。
画像・文書解析	Claude Opus 4.7	Vision & Document Arenaで総合1位と報告され、図表、宿題、OCRのサブカテゴリでも勝利しています。
コスト重視	DeepSeek V4	VentureBeatは、DeepSeek V4をOpus 4.7やGPT-5.5のおよそ6分の1のコストで準最先端級の知能を提供するモデルとして報じています。ただし実ワークロードでの検証は必要です。
4者比較として最も読みにくい項目	Kimi K2.6	Kimi K2.6には有用な個別スコアがありますが、GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Maxと同じ主要共通表でそろって比較されているわけではありません。

詳細ベンチマーク表

ベンチマーク / 能力	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek V4 / V4 Pro Max	Kimi K2.6	読み取り
GPQA Diamond	93.6%	未報告	94.2%	DeepSeek-V4-Pro-Maxが90.1%	未報告	共通表ではClaudeが首位。
Humanity’s Last Exam、ツールなし	41.4%	43.1%	46.9%	DeepSeek-V4-Pro-Maxが37.7%	未報告	共通表ではClaudeが首位。
Humanity’s Last Exam、ツールあり	52.2%	57.2%	54.7%	DeepSeek-V4-Pro-Maxが48.2%	別比較で54.0%	共通表ではGPT-5.5 Proが首位。
Terminal-Bench 2.0	82.7%	未報告	69.4%	DeepSeek-V4-Pro-Maxが67.9%	別比較で66.7%	GPT-5.5の差が大きい。
SWE-Bench Pro / SWE Pro	58.6%	未報告	64.3%	DeepSeek-V4-Pro-Maxが55.4%	別比較で58.6%	共通表ではClaudeが首位。
BrowseComp	84.4%	90.1%	79.3%	DeepSeek-V4-Pro-Maxが83.4%。別比較のDeepSeek-V4 Proも83.4%	別比較で83.2%	共通表ではGPT-5.5 Proが首位。
MCP Atlas / MCPAtlas Public	75.3%	未報告	79.1%	DeepSeek-V4-Pro-Maxが73.6%	未報告	Claudeが首位。
OSWorld-Verified	78.7%	未報告	78.0%	未報告	未報告	GPT-5.5が僅差でClaudeを上回ります。
FrontierMath Tiers 1–3	51.7%	未報告	43.8%	未報告	未報告	GPT-5.5がClaudeを上回ります。
Vision & Document Arena	未報告	未報告	総合1位と報告	未報告	未報告	引用データがあるのはClaudeのみ。
AIME 2026	未報告	未報告	未報告	引用されたKimi対DeepSeek表では未掲載	Thinking modeで96.4%	Kimiの有用なシグナル。ただし4者順位ではありません。
APEX Agents	未報告	未報告	未報告	引用されたKimi対DeepSeek表では未掲載	Thinking modeで27.9%	Kimiの有用なシグナル。ただし4者順位ではありません。
コンテキスト長	未報告	未報告	あるArtificial Analysis比較で100万トークン、つまり1,000kトークン	同じ比較でDeepSeek V4 Proも100万トークン、つまり1,000kトークン	未報告	その比較条件ではClaudeとDeepSeek V4 Proが同等。

別々のソースをまたぐ行は、特に慎重に読むべきです。Kimi K2.6のスコアは参考になりますが、GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Maxと同じ評価環境で出た数値ほど強い比較材料ではありません。

GPT-5.5：端末、OS、数学、ツール利用で強い

GPT-5.5の最もはっきりした勝ち筋はTerminal-Bench 2.0です。82.7%というスコアは、Claude Opus 4.7の69.4%、DeepSeek-V4-Pro-Maxの67.9%を大きく上回ります。今回の引用データの中では、差が大きく、実務検証の優先度を上げやすい項目です。

OSWorld-VerifiedでもGPT-5.5は78.7%で、Claude Opus 4.7の78.0%を上回ります。ただし差は0.7ポイントで、方向感として読むのが妥当です。一方、FrontierMath Tiers 1–3ではGPT-5.5が51.7%、Claudeが43.8%で、差はより明確です。

ツールやブラウジングを使う場面では、GPT-5.5 Proの存在感が増します。Humanity’s Last ExamのツールありではGPT-5.5 Proが57.2%で、Claude Opus 4.7の54.7%、GPT-5.5の52.2%、DeepSeek-V4-Pro-Maxの48.2%を上回ります。BrowseCompでもGPT-5.5 Proは90.1%で、GPT-5.5の84.4%、DeepSeek-V4-Pro-Maxの83.4%、Claude Opus 4.7の79.3%を上回ります。

ただし、GPT-5.5がすべての推論テストで勝つわけではありません。GPQA DiamondではClaude Opus 4.7が94.2%、GPT-5.5が93.6%で、Claudeが0.6ポイント上です。

別資料には、GPT-5.5単体の領域別スコアとしてHarvey BigLaw Bench 91.7%、社内投資銀行ベンチマーク88.5%、BixBench 80.5%などが報告されています。ただし、同じ抜粋にClaude Opus 4.7、DeepSeek V4、Kimi K2.6の同条件スコアが並んでいるわけではないため、4者比較の勝利とは見なせません。

Claude Opus 4.7：ツールなし推論と文書系で強い

Claude Opus 4.7は、主要共通表ではツールなしの推論が強いモデルです。GPQA Diamondで94.2%、Humanity’s Last Examのツールなしで46.9%と、いずれも首位です。SWE-Bench Pro / SWE Proでも64.3%、MCP Atlas / MCPAtlas Publicでも79.1%で、同じ表の中ではClaudeがトップです。

一方、端末操作系ではGPT-5.5に大きく差をつけられています。Terminal-Bench 2.0ではGPT-5.5が82.7%、Claude Opus 4.7が69.4%です。OSWorld-VerifiedとFrontierMath Tiers 1–3でも、引用データ上はGPT-5.5がClaudeを上回ります。

マルチモーダル、とくに文書解析のシグナルはClaudeが最も強く見えます。あるソースはClaude Opus 4.7がVision & Document Arenaで総合1位になり、Document ArenaでOpus 4.6から4ポイント改善し、図表、宿題、OCRのサブカテゴリでも勝利したと報告しています。ただし、そのソースにはGPT-5.5、DeepSeek V4、Kimi K2.6の同じ数値が並んでいないため、完全な4者マルチモーダル順位までは言えません。

DeepSeek V4：勝ち項目よりコスト性能が焦点

DeepSeekについては、ラベルの違いに注意が必要です。主要共通表ではDeepSeek-V4-Pro-Maxが使われ、Artificial Analysisの比較ではDeepSeek V4 Proという表記が使われています。これらを自動的に同一視すると、読み違える可能性があります。

主要共通表では、DeepSeek-V4-Pro-Maxは競争力がありますが、掲載行の首位には立っていません。GPQA Diamondは90.1%、Humanity’s Last Examのツールなしは37.7%、ツールありは48.2%、Terminal-Bench 2.0は67.9%、SWE-Bench Pro / SWE Proは55.4%、BrowseCompは83.4%、MCP Atlas / MCPAtlas Publicは73.6%です。

DeepSeek V4の最大の売りとして引用されているのは、カテゴリ別の首位ではなくコスト性能です。VentureBeatはDeepSeek V4を、Opus 4.7やGPT-5.5のおよそ6分の1のコストで準最先端級の知能を提供するモデルとして報じています。これは、品質を自社で確認できるコスト重視の用途では試す価値がある、という意味で読むべきです。

長文コンテキストの観点では、あるArtificial Analysis比較でDeepSeek V4 ProとClaude Opus 4.7のどちらも100万トークン、つまり1,000kトークンのコンテキストウィンドウとされています。ただし、これはその比較条件における設定の話であり、すべてのDeepSeekやClaudeのモードに広げられる主張ではありません。

Kimi K2.6：有望だが、4者横並びにはしにくい

Kimi K2.6は、この比較の中で最も順位を付けにくいモデルです。主な理由は、GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Maxと並ぶ主要共通表に含まれていないことです。

Kimiに焦点を当てた比較では、K2.6はSWE-Bench Proで58.6%、SWE-Bench Verifiedで80.2%、Terminal-Bench 2.0で66.7%、Humanity’s Last Examのツールありで54.0%、LiveCodeBench v6で89.6%と報告されています。同ソースは、K2.6の数値がMoonshot AIの公式モデルカードに基づくものだとしていますが、比較対象は主にClaude Opus 4.6とGPT-5.4であり、今回の正確な4者構成とは異なります。

別のKimi対DeepSeek比較では、Kimi K2.6がAIME 2026で96.4%、APEX Agentsで27.9%、BrowseCompで83.2%と報告されています。同じソースではDeepSeek-V4 ProのBrowseCompが83.4%とされていますが、AIME 2026とAPEX AgentsのDeepSeek側スコアは掲載されていません。

つまり、Kimi K2.6はコーディング、エージェント、数学、ブラウジング用途で試す価値のある候補です。ただし、GPT-5.5やClaude Opus 4.7に対する包括的な順位付けは、引用データだけでは支えきれません。

どのモデルから試すべきか

端末操作が多いエージェント、OS操作、FrontierMathに近い数学タスクなら、まずGPT-5.5を試す価値があります。引用データではTerminal-Bench 2.0、OSWorld-Verified、FrontierMathで優位です。
ツールを使う推論やブラウジングが中心なら、GPT-5.5 Proが第一候補です。共通表ではHumanity’s Last ExamのツールありとBrowseCompで首位です。
科学推論、ツールなしの専門Q&A、SWE-Bench Pro型のソフトウェア修正、MCP型ワークフロー、文書の多いマルチモーダル作業では、Claude Opus 4.7を先に試す理由があります。
コスト性能が最重要で、品質確認を自社で回せるなら、DeepSeek V4を試す価値があります。引用されている最大の強みは、Opus 4.7やGPT-5.5の約6分の1というコスト性能の報告です。
Kimi K2.6は、報告されているコーディング、エージェント、数学、ブラウジングのスコアに関心がある場合に試す候補です。ただし、他モデルと同じプロンプト、同じツール、同じコンテキスト制限、同じ遅延目標、同じ採点ルールで比べるべきです。

ベンチマークを読むときの注意点

これは万能ランキングではありません。ソースにはGPT-5.5、GPT-5.5 Pro、DeepSeek-V4-Pro-Max、DeepSeek V4 Pro、Claude Opus 4.7、Kimi K2.6といった異なるラベルやモードが混在しています。

また、一部の結果はベンダー報告です。GPT-5.5関連の表では、ベンチマーク値がベンダー報告であることが明記されています。さらにOpenAIは、ARC関連のGPT評価がreasoning effortをxhighに設定した研究環境で実施され、本番のChatGPTとは出力がわずかに異なる場合があると説明しています。

僅差は方向感として扱うべきです。Claude Opus 4.7のGPQA DiamondでのリードはGPT-5.5に対して0.6ポイント、GPT-5.5のOSWorld-VerifiedでのリードはClaudeに対して0.7ポイントです。一方、Terminal-Bench 2.0でのGPT-5.5のClaudeに対する13ポイント超の差や、FrontierMathでの7.9ポイント差は、より実務検証につなげやすい差です。

実務上の結論はシンプルです。GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6の間に、すべての領域で勝つ単一モデルはありません。自社の仕事に近いベンチマークを選び、実際に使えるモデルだけを同条件で再テストするのが、最も失敗しにくい選び方です。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

人々も尋ねます