結論から言うと、GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6を1つの総合順位で並べるのは危険です。公開されている情報は、すべてのモデルを同じベンチマーク、同じ評価者、同じ条件で比べたものではありません。GPT-5.5とClaude Opus 4.7はVellumやOpenAIの表で直接比較できる項目が多い一方、DeepSeek V4とKimi K2.6はlong context、オープンウェイト、マルチモーダル、信頼性に関する公開情報が中心です [2][
7][
30][
31][
33][
35][
36]
まず結論:最強モデルではなく、仕事別に選ぶ
同じ土俵でGPT-5.5とClaude Opus 4.7を比べられるデータを見ると、勝ち負けはかなり分かれます。Vellumの表では、GPT-5.5がTerminal-Bench 2.0で82.7%対69.4%、GDPvalで84.9%対80.3%とClaude Opus 4.7を上回っています。一方、Claude Opus 4.7はSWE-Bench Proで64.3%対58.6%、GPQA Diamondで94.2%対93.6%とGPT-5.5を上回ります [2]
OpenAIが示したcomputer useとtool useの表では、GPT-5.5はOSWorld-Verifiedで78.7%対78.0%、BrowseCompで84.4%対79.3%とClaude Opus 4.7を上回ります。ただしMCP Atlasでは、GPT-5.5が75.3%、Claude Opus 4.7が79.1%で、Claude側が上です [7]
DeepSeek V4とKimi K2.6については、GPT-5.5やClaude Opus 4.7と同じベンチマーク群で一括比較できる公開スコアが十分にそろっていません。そのため、スコアがない領域で勝敗を断定するのではなく、確認できる強みとリスクを分けて読む必要があります [31][
33][
35][
36]
公開データで直接読みやすい比較表
| ベンチマーク / 指標 | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | 読み方 |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% | 同一ソースで直接比較できるスコア未確認 | 同一ソースで直接比較できるスコア未確認 | 端末操作やagentic workflowでは、Vellumの表でGPT-5.5がリード [ |
| SWE-Bench Pro | 58.6% | 64.3% | 同一ソースで直接比較できるスコア未確認 | 同一ソースで直接比較できるスコア未確認 | software engineering系では、Vellumの表でClaude Opus 4.7がリード [ |
| GDPval | 84.9% | 80.3% | 同一ソースで直接比較できるスコア未確認 | 同一ソースで直接比較できるスコア未確認 | この指標ではGPT-5.5がClaude Opus 4.7を上回る [ |
| OSWorld-Verified | 78.7% | 78.0% | 同一ソースで直接比較できるスコア未確認 | 同一ソースで直接比較できるスコア未確認 | OpenAIの表ではGPT-5.5がわずかに上 [ |
| BrowseComp | 84.4% | 79.3% | 同一ソースで直接比較できるスコア未確認 | 同一ソースで直接比較できるスコア未確認 | browser/tool useではOpenAIの表でGPT-5.5が上 [ |
| MCP Atlas | 75.3% | 79.1% | 同一ソースで直接比較できるスコア未確認 | 同一ソースで直接比較できるスコア未確認 | この項目ではClaude Opus 4.7がGPT-5.5を上回る [ |
| GPQA Diamond | 93.6% | 94.2% | 同一ソースで直接比較できるスコア未確認 | 同一ソースで直接比較できるスコア未確認 | Vellumの表ではClaude Opus 4.7が小幅に上 [ |
| FrontierMath T1–3 | 51.7% | 43.8% | 同一ソースで直接比較できるスコア未確認 | 同一ソースで直接比較できるスコア未確認 | Vellumの表ではGPT-5.5が上 [ |
| Context window | このArtificial Analysis比較表では対象外 | このArtificial Analysis比較表では対象外 | DeepSeek V4 Pro:1,000k tokens | 256k tokens | 同じArtificial Analysisの比較ではDeepSeek V4 Proのほうが大きい [ |
| AA-Omniscience / hallucination | 同一ソースで直接比較できるスコア未確認 | 同一ソースで直接比較できるスコア未確認 | V4 Pro MaxはAA-Omniscience -10、V4 Proのhallucination rateは94% | 同一ソースで直接比較できるスコア未確認 | DeepSeek V4は長文処理の魅力と同時に、回答検証の必要性が強い [ |
| Artificial Analysis Intelligence Index | 同一ソースで直接比較できるスコア未確認 | 同一ソースで直接比較できるスコア未確認 | 同一ソースで直接比較できるスコア未確認 | 54 | Kimi K2.6固有の参考値であり、VellumやOpenAIの表と単純合算はできない [ |
ここでの「同一ソースで直接比較できるスコア未確認」は、そのモデルが劣るという意味ではありません。本稿で使った公開ソースの範囲では、同じ評価者・同じベンチマーク・同じ条件で比べられる数字が確認できない、という意味です。
GPT-5.5:terminal、agentic workflow、tool useで強い候補
GPT-5.5は、今回の材料の中ではClaude Opus 4.7と直接比較できる公開スコアが最も多いモデルです。VellumはTerminal-Bench 2.0、SWE-Bench Pro、GDPval、GPQA Diamond、FrontierMathを掲載し、OpenAIはOSWorld-Verified、BrowseComp、MCP Atlasなどを掲載しています [2][
7]
強みが見えやすいのは、端末操作、エージェント的な作業、ツール利用です。GPT-5.5はTerminal-Bench 2.0で82.7%対69.4%、BrowseCompで84.4%対79.3%、OSWorld-Verifiedで78.7%対78.0%とClaude Opus 4.7を上回っています [2][
7]
ただし、GPT-5.5がすべての項目で勝っているわけではありません。SWE-Bench Pro、MCP Atlas、GPQA DiamondではClaude Opus 4.7が上回っています [2][
7]
安全性や制御性の文脈では、OpenAIのSystem CardがGPT-5.5のCoT-Control評価に触れています。CoT-ControlはGPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verifiedなどから作られた13,000件超のタスクを含む評価スイートです [4]。これはモデル挙動の管理を読むうえでは重要ですが、性能ベンチマークの点数そのものと混同しないほうがよいでしょう。
Claude Opus 4.7:software engineeringで存在感
AnthropicのClaude API Docsには、Claude Opus 4.7が2026年4月16日付で記載されています [20]。GPT-5.5と直接比較できる公開スコアに限ると、最も目立つ強みはsoftware engineeringです。VellumのSWE-Bench Proでは、Claude Opus 4.7が64.3%、GPT-5.5が58.6%でした [
2]
また、OpenAIの表でもMCP AtlasはClaude Opus 4.7が79.1%、GPT-5.5が75.3%でClaude側が上です [7]。一方で、OSWorld-VerifiedとBrowseCompではGPT-5.5が上回り、Vellumの表でもTerminal-Bench 2.0、GDPval、FrontierMath T1–3ではGPT-5.5が上回っています [
2][
7]
安全性の文脈では、AnthropicのPetri 2.0がClaude modelsに対する介入について、eval-awarenessのmedian relative dropが47.3%だったと報告しています [22]。この数字はClaude系モデルの挙動や安全性評価を読む材料であり、Claude Opus 4.7単体の性能スコアとして扱うべきではありません。
DeepSeek V4:長いコンテキストは魅力、ただし検証体制が必須
DeepSeek-V4の技術文書は、V4 seriesがDeepSeek-V3からDeepSeekMoE frameworkとMulti-Token Prediction strategyを引き継ぎつつ、long contextの効率を高めるためにhybrid attentionを導入したと説明しています [30]
Artificial Analysisの比較表では、DeepSeek V4 Proのcontext windowは1,000k tokensで、Kimi K2.6の256k tokensを大きく上回ります [33]。長い仕様書、契約書、ログ、大量の社内文書をまとめて扱うような用途では、このコンテキスト長は強い魅力になります。
一方で、信頼性には注意が必要です。Artificial AnalysisはDeepSeek V4 Pro MaxのAA-Omniscienceを-10とし、DeepSeek V3.2 Reasoningの-21から改善したと報告していますが、同時にDeepSeek V4 Proのhallucination rateを94%、DeepSeek V4 Flashを96%としています [31]。つまり、長い文脈を入れられることと、答えが正しいことは別問題です。
DeepSeek V4 Proを本番業務で使うなら、検索・参照元に基づくgrounding、出典確認、人間によるレビュー、社内テストセットでの検証を組み合わせるのが現実的です。特に、誤答のコストが高い業務では慎重に扱うべきでしょう [30][
31][
33]
Kimi K2.6:オープンウェイトのマルチモーダル候補
Artificial Analysisは、Kimi K2.6を2026年4月リリースのopen weights modelとし、Artificial Analysis Intelligence Indexは54だと示しています [35]。別の記事では、Kimi K2.6が画像・動画入力とテキスト出力にネイティブ対応し、最大context lengthは256kだと説明されています [
36]
DeepSeek V4 Proと比べると、context windowは256k tokensで、1,000k tokensのDeepSeek V4 Proより小さいです [33]。ただし、Kimi K2.6の見どころは、長文だけではなく、オープンウェイトでマルチモーダル入力に対応する点にあります [
35][
36]
現時点の注意点は、GPT-5.5やClaude Opus 4.7と同じ表で、Terminal-Bench 2.0、SWE-Bench Pro、GDPval、OSWorld-Verified、MCP Atlasなどを一括比較できる公開スコアが見当たらないことです [2][
7][
33][
35][
36]。そのため、Kimi K2.6は有力なshortlist候補ではありますが、直接比較スコアのない領域で優劣を断定するのは早計です。
用途別:どのモデルを候補に入れるべきか
| やりたいこと | まず検討したいモデル | 根拠 |
|---|---|---|
| Terminal automation / agentic workflow | GPT-5.5 | Terminal-Bench 2.0でGPT-5.5が82.7%、Claude Opus 4.7が69.4% [ |
| Software engineering / issue solving | Claude Opus 4.7 | SWE-Bench ProでClaude Opus 4.7が64.3%、GPT-5.5が58.6% [ |
| Browserやtool workflow | GPT-5.5またはClaude Opus 4.7 | BrowseCompはGPT-5.5が上、MCP AtlasはClaude Opus 4.7が上 [ |
| Computer-use workflow | GPT-5.5が小幅リード | OSWorld-VerifiedはGPT-5.5が78.7%、Claude Opus 4.7が78.0% [ |
| 非常に長いコンテキスト処理 | DeepSeek V4 Pro | context windowは1,000k tokens。ただしhallucination rate 94%の報告があるため検証が必要 [ |
| Open-weight multimodal | Kimi K2.6 | open weights modelで、画像・動画入力とテキスト出力に対応 [ |
| hallucinationを最小化したい重要業務 | 本稿のデータだけでは総合勝者は未確定 | DeepSeek V4のリスクは明確だが、4モデルを同一条件で比較した信頼性指標はそろっていない [ |
ベンチマークを読むときの注意点
第1に、異なるソースの数字を足し合わせて総合ランキングを作るのは避けるべきです。Vellum、OpenAI、Artificial Analysisは、それぞれ異なるベンチマーク、異なる評価文脈、異なる掲載範囲で数字を出しています [2][
7][
31][
33][
35]
第2に、coding評価ではベンチマークの種類が重要です。研究文献でも、HumanEvalのような既存ベンチマークには限界があり、実際のissue solving能力を見るにはSWE-Benchのようなベンチマークも考慮すべきだと指摘されています [42]
第3に、context windowの大きさは正確性の保証ではありません。DeepSeek V4 Proは1,000k tokensのcontext windowを持つ一方、Artificial AnalysisはDeepSeek V4 Proのhallucination rateを94%と報告しています [31][
33]。長く読めるモデルほど、むしろ回答の根拠確認が重要になる場面もあります。
まとめ
GPT-5.5は、agentic workflow、端末操作、ツール利用を重視するなら強い候補です。Terminal-Bench 2.0、BrowseComp、OSWorld-VerifiedでClaude Opus 4.7を上回っています [2][
7]
Claude Opus 4.7は、software engineering寄りの仕事で特に検討価値があります。SWE-Bench Proでは64.3%で、GPT-5.5の58.6%を上回りました [2]
DeepSeek V4 Proは、1,000k tokensのlong contextが大きな魅力です。ただし、Artificial AnalysisがDeepSeek V4 Proのhallucination rateを94%と報告しているため、業務利用ではgroundingやレビューを前提にすべきです [31][
33]
Kimi K2.6は、オープンウェイトかつマルチモーダルの候補として注目できます。Artificial Analysis Intelligence Indexは54で、画像・動画入力にも対応しますが、GPT-5.5やClaude Opus 4.7と直接比べられるベンチマークはまだ十分ではありません [35][
36]
要するに、2026年時点の読み方は「GPT-5.5かClaudeか」ではなく、「どの業務に、どのリスク許容度で、どの評価指標を使うか」です。導入前には、公開ベンチマークだけでなく、自社の実データとワークフローに近い小さな評価セットを作って確認するのが最も堅実です。




