レポート公開済み3 か月前Last edited 2 か月前15 ソース

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6の公開ベンチマーク比較

四者を直接横並びにできる公開項目として最も使いやすいのはTerminal Bench 2.0で、GPT 5.5が82.7%で先行する。ただし、出所が異なるため絶対的な総合順位にはできない。[29][30][6] OpenAIの表ではGPT 5.5がClaude Opus 4.7を上回り、DeepSeekのモデルカードではDS V4 Pro MaxがKimi K2.6 Thinkingを多くの項目で上回る。一方、KimiはGPQA DiamondとSWE Proで先行する。[29][6] モデル選定では、共有ベンチマーク、ベンダー表内の比較、自社タスクでの同条件テストを分けて見るべき。特にツール権限、コンテキスト、推論予算、遅延...

Studio Global AIで検索して事実確認さらにトレンドページを見る

GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试对比示意图 — GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比：哪些结论站得住AI 生成插图：多模型基准测试对比场景。
AI プロンプト
Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比：哪些结论站得住. Article summary: 最稳妥的读法是：目前四者能较清楚横向对齐的是 Terminal Bench 2.0，GPT 5.5 以 82.7% 领先；但公开分数来自不同厂商表，不能直接合成为绝对总排名。[29][30][6]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "核心结论：2026年5月的AI模型排行榜呈现"三足鼎立"格局：GPT-5.5领跑Agentic工作流（Terminal-Bench 82.7%），Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜：GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Reference image 2: visual subject "核心结论：2026年5月的AI模型排行榜呈现"三足鼎立"格局：GPT-5.5领跑Agentic工作流（Terminal-Bench 82.7%），Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜：GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail,
openai.com

公開ベンチマークは、候補モデルを素早く絞るには便利です。ただし、GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6をそのまま一つの「総合ランキング」にするには、現時点の公開情報だけでは足りません。参照できる資料は、OpenAIのGPT-5.5発表ページとシステムカード、AnthropicのClaude Opus 4.7 APIドキュメント、DeepSeek V4-Proモデルカードに分かれており、同一の第三者、同一バージョン、同一評価設定で行われた四者同時テストではないためです。

まず、モデル名とバージョンをそろえる

本稿では、DeepSeek V4をDeepSeekモデルカード上のDS-V4-Pro Max、Kimi K2.6を同じ表に出てくるK2.6 Thinkingとして扱います。この2つは、DeepSeekの公開表で直接確認できる列名です。

ここを曖昧にすると、比較を誤りやすくなります。DeepSeekモデルカードのGPT列とClaude列は、GPT-5.4 xHighとOpus-4.6 Maxであり、本稿で見たいGPT-5.5とClaude Opus 4.7ではありません。そのため、DeepSeekの表だけを使って、DS-V4-Pro MaxがGPT-5.5やClaude Opus 4.7に勝つか負けるかを包括的に判断することはできません。

また、AnthropicのClaude Opus 4.7公開APIドキュメントは、


task budgets

ベータなどの機能と呼び出し方法を説明する内容が中心で、OpenAIやDeepSeek、Kimiとそのまま合算できるベンチマーク総表ではありません。

四者を横に並べられる数少ない項目：Terminal-Bench 2.0

今回参照できる公開資料の範囲で、4つの対象モデルすべてにスコアが見つかる共有項目はTerminal-Bench 2.0です。公開表に基づく並びは次の通りです。

モデル	Terminal-Bench 2.0	出典
GPT-5.5	82.7%	OpenAI発表ページ、MLQ.ai要約
Claude Opus 4.7	69.4%	OpenAI発表ページ
DeepSeek V4-Pro Max	67.9%	DeepSeek V4-Proモデルカード
Kimi K2.6 Thinking	66.7%	DeepSeek V4-Proモデルカード

ここから安全に言えるのは、あくまでTerminal-Bench 2.0という単一項目では、GPT-5.5が明確に先行し、Claude Opus 4.7が2番手、DeepSeek V4-Pro MaxとKimi K2.6 Thinkingは近い水準にあるということです。

ただし、この1項目だけで「GPT-5.5がすべての業務で最良」とまでは言えません。ツール権限、コンテキスト長、推論予算、評価ハーネス、失敗時のリカバリー条件が違えば、実務での順位は変わり得ます。

GPT-5.5対Claude Opus 4.7：OpenAI表の中ではGPT-5.5が上回る

OpenAIのGPT-5.5発表ページには、GPT-5.5とClaude Opus 4.7の複数ベンチマーク比較が掲載されています。その表に載る項目では、GPT-5.5のスコアがClaude Opus 4.7をすべて上回っています。

ベンチマーク（OpenAI表）	GPT-5.5	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	69.4%
GDPval wins or ties	84.9%	80.3%
BrowseComp	84.4%	79.3%
FrontierMath Tier 1–3	51.7%	43.8%
FrontierMath Tier 4	35.4%	22.9%
CyberGym	81.8%	73.1%

この表から導けるのは、OpenAIが列挙した評価項目ではGPT-5.5がClaude Opus 4.7を上回るという限定的な結論です。 OpenAIのシステムカードでも、GPT-5.5はコード作成、オンライン調査、情報分析、文書やスプレッドシート作成、複数ツールをまたぐ作業など、複雑な実務向けのモデルとして位置づけられています。

一方で、これはOpenAIの発表ページ内の比較表であり、4モデルを同一条件で再評価した独立第三者の統一テストではありません。

DeepSeek V4-Pro Max対Kimi K2.6 Thinking：DeepSeek表ではDeepSeekが多数項目で先行

DeepSeek V4-Proモデルカードには、DS-V4-Pro MaxとK2.6 Thinkingを並べた複数項目の比較が掲載されています。その表では、DS-V4-Pro Maxが多くの項目でK2.6 Thinkingを上回りますが、Kimi側にも明確な先行項目があります。

ベンチマーク（DeepSeekモデルカード）	DeepSeek V4-Pro Max	Kimi K2.6 Thinking	表内での先行
MMLU-Pro	87.5	87.1	DeepSeek
SimpleQA-Verified	57.9	36.9	DeepSeek
Chinese-SimpleQA	84.4	75.9	DeepSeek
GPQA Diamond	90.1	90.5	Kimi
HLE	37.7	36.4	DeepSeek
LiveCodeBench	93.5	89.6	DeepSeek
HMMT 2026 Feb	95.2	92.7	DeepSeek
IMOAnswerBench	89.8	86.0	DeepSeek
Apex Shortlist	90.2	75.5	DeepSeek
SWE Pro	55.4	58.6	Kimi
Terminal-Bench 2.0	67.9	66.7	DeepSeek

この表の堅い読み方は、DeepSeekモデルカードに掲載された多くの項目ではDS-V4-Pro MaxがK2.6 Thinkingを上回るが、Kimi K2.6 ThinkingはGPQA DiamondとSWE Proで先行するというものです。 MMLU-ProやTerminal-Bench 2.0の差は大きくないため、製品選定では「どちらが上か」だけでなく、自分たちのタスクに近い評価項目かどうかを見る必要があります。

なぜ四者の絶対的な総合順位を出せないのか

最も危ない読み方は、OpenAIの表、DeepSeekの表、Anthropicの機能ドキュメントをそのままつなげて「総合優勝」を決めることです。現時点の公開資料では、それは支えられません。理由は主に3つあります。

比較されているバージョンが違う。 OpenAIの表はGPT-5.5とClaude Opus 4.7を比較しています。一方、DeepSeek表のGPT列とClaude列はGPT-5.4 xHighとOpus-4.6 Maxです。
情報の出所が違う。 資料はベンダー発表ページ、システムカード、APIドキュメント、モデルカードに分かれており、同一の第三者評価フレームワークで4モデルを一括再テストしたものではありません。
指標が同じ能力を測っているとは限らない。 GDPval、BrowseComp、FrontierMath、CyberGym、MMLU-Pro、GPQA Diamond、SWE Proなどは、それぞれ異なる能力を見ます。重みづけを決めずに合計点を作ると、実際の業務差を隠してしまいます。

したがって、公開ベンチマークは一次スクリーニングには有効ですが、購入判断やアーキテクチャ選定の最終根拠としては不十分です。

実務で選ぶなら、3層に分けて見る

製品や社内システムに組み込む前提なら、次のように切り分けるのが現実的です。

共有ベンチマーク層。 現時点で最も明確な四者の交点はTerminal-Bench 2.0です。この項目ではGPT-5.5が先行しています。
ベンダー表内比較層。 OpenAI表は、掲載項目においてGPT-5.5がClaude Opus 4.7を上回ることを示します。DeepSeekモデルカードは、掲載項目の多くでDS-V4-Pro MaxがK2.6 Thinkingを上回ることを示します。
自社タスクでの再テスト層。 コーディング、エージェント処理、推論、検索、ツール利用、遅延、コストなどを、自社の実タスクに分解します。そのうえで、同じプロンプト、同じコンテキスト、同じツール権限、同じ採点ルールで比較します。

長いエージェントループを使う製品なら、Claude Opus 4.7の


task budgets

は個別に試す価値があります。Anthropicのドキュメントによれば、これはthinking、tool calls、tool results、final outputを含むエージェントループ全体に対して、おおよそのトークン目標を与え、モデルが予算のカウントダウンを見ながら作業を進められるようにする機能です。

一方、複雑なコーディング、オンライン調査、文書や表計算ファイルの作成、複数ツールをまたぐ業務に近いなら、GPT-5.5のシステムカードに書かれた想定用途はその領域と直接重なります。ただし、公開表で強いモデルであっても、自社のコードベース、ツールチェーン、権限境界、エラー復旧設計の中で再検証することは欠かせません。

現時点で最も安全な結論

Terminal-Bench 2.0単項目では、 GPT-5.5が1位、Claude Opus 4.7が2位、DeepSeek V4-Pro Maxが3位、Kimi K2.6 Thinkingが4位です。
OpenAI表の中では、 GPT-5.5が掲載項目でClaude Opus 4.7を上回っています。
DeepSeek表の中では、 DS-V4-Pro Maxが多くの項目でKimi K2.6 Thinkingを上回りますが、KimiはGPQA DiamondとSWE Proで先行しています。
四者の絶対的な総合順位については、 証拠がまだ足りません。同一第三者、同一バージョン、同一評価条件での完全な四者比較は、今回参照できる公開資料にはありません。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

人々も尋ねます