2026年のAIベンチマークは、モデル名だけを横に並べると簡単に読み違えます。Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6を同じランキング表に入れたくなりますが、まず確認すべきなのは「同じベンチマークで、同じモデル版が評価されているか」です。
提供ソースの中で最も比較の足場が固いのは、Claude Opus 4.7とGPT-5.5です。両者はOpenAIとVellumの表で同じ評価項目に載っています [5][
2]。一方、DeepSeek V4とKimi K2.6については、直接の数値は確認できません。近いデータとして出てくるのはDeepSeek V3.2、KimiK2.5、Kimi K2 Thinkingであり、別バージョンの結果をV4やK2.6の実力として読み替えることはできません [
1][
13][
6]。
まず押さえたい結論
- GPT-5.5は、ターミナル/CLI、オフィス・業務タスク、ブラウザ/検索、いくつかの数学評価で強い数値が出ています [
5][
2]。
- Claude Opus 4.7は、SWE-Bench Pro Public、MCP Atlasのようなツール連携、FinanceAgent v1.1で優位です [
5][
2]。
- DeepSeek V4とKimi K2.6は、今回のソースだけではClaude Opus 4.7やGPT-5.5と公平に順位付けできません [
1][
13][
6]。
同じ土俵で比較できるベンチマーク
以下は、Claude Opus 4.7とGPT-5.5が同じ評価項目で報告されているものだけを並べた表です。GPT-5.5 Proは、ソースが別バリアントとして示している場合のみ記載しています [2]。
| 主な用途 | ベンチマーク | 報告値 | 読み方 |
|---|---|---|---|
| コード修正 | SWE-Bench Pro Public | Claude Opus 4.7 64.3% vs GPT-5.5 58.6% [ | この評価ではClaudeが上。 |
| ターミナル/CLIエージェント | Terminal-Bench 2.0 | GPT-5.5 82.7% vs Claude Opus 4.7 69.4% [ | GPT-5.5の優位が最もはっきり出ている領域。 |
| 業務タスク | GDPval、OfficeQA Pro | GDPvalはGPT-5.5 84.9% vs Claude 80.3%。OfficeQA ProはGPT-5.5 54.1% vs Claude 43.6% [ | この2指標ではGPT-5.5が強い。 |
| 金融エージェント | FinanceAgent v1.1 | Claude 64.4% vs GPT-5.5 60.0% [ | この金融エージェント評価ではClaudeが上。 |
| コンピューター/ブラウザ操作 | OSWorld-Verified、BrowseComp | OSWorldはGPT-5.5 78.7% vs Claude 78.0%。BrowseCompはGPT-5.5 84.4%、GPT-5.5 Pro 90.1% vs Claude 79.3% [ | OSWorldはほぼ同等、BrowseCompはGPT-5.5が高い。 |
| ツール連携 | MCP Atlas | Claude 79.1% vs GPT-5.5 75.3% [ | ツールを多用するシナリオではClaudeが強い。 |
| 科学・数学推論 | GPQA Diamond、FrontierMath T1–3 | GPQAはClaude 94.2% vs GPT-5.5 93.6%。FrontierMathはGPT-5.5 51.7%、GPT-5.5 Pro 52.4% vs Claude 43.8% [ | GPQAは僅差。FrontierMathではGPT-5.5が上。 |
ベンチマークを読むときの注意点
1. SWE-Bench ProとSWE-bench Verifiedを混ぜない
OpenAIの表で使われているのは、GPT-5.5とClaude Opus 4.7を比較するSWE-Bench Pro Publicです [5]。これはSWE-bench Verifiedと同じではありません。BenchLMはSWE-bench Verifiedを、Django、Flask、scikit-learnなど人気のPythonリポジトリにある実際のGitHub issueを解かせる、人手検証済みのSWE-benchサブセットだと説明しています [
21]。
つまり、Claude Opus 4.7のSWE-Bench Pro Public 64.3%という数字を、別のリーダーボードに載っているSWE-bench Verifiedの数字とそのまま比較してはいけません [5][
21]。ベンチマーク名、評価ハーネス、実施日、モデル設定までそろえて見る必要があります。
2. GPQA Diamondは、フロンティアモデルの差をつけにくくなっている
Vellumは、GPQA DiamondでClaude Opus 4.7を94.2%、GPT-5.5を93.6%としています [2]。The Next Webも、Claude Opus 4.7が94.2%、GPT-5.4 Proが94.4%、Gemini 3.1 Proが94.3%と報じ、これらの差はノイズの範囲だとしています [
17]。
GPQAは一般的な高度推論のシグナルとしては有用ですが、これだけで本番導入するモデルを決めるには弱くなっています。特に業務利用では、実際のタスク、ツール連携、失敗時のリカバリーまで含めて見るべきです。
3. 第三者リーダーボードの数値はずれることがある
SWE-bench VerifiedにおけるClaude Opus 4.7の数値は、ソースによって一致しません。BenchLMは2026年4月24日時点でClaude Opus 4.7 Adaptiveを87.6%としています [21]。LLM Statsも87.6%を掲載しています [
18]。一方、LM CouncilはClaude Opus 4.7 maxを83.5% ±1.7とし [
10]、MindStudioは82.4%としています [
14]。
これは、どれか一つが即座に誤りだという意味ではありません。モデル設定、評価ハーネス、テスト日、リトライの扱い、推論モードの違いで数字は変わり得ます。開発チームにとって、公開ベンチマークは候補を絞る材料であって、自社リポジトリや実運用フローでの検証の代わりにはなりません。
Claude Opus 4.7:コード修正とツール連携で目立つ
Claude Opus 4.7の強いシグナルは、コード修正とツールを多用するエージェント用途にあります。OpenAIの表では、SWE-Bench Pro PublicでClaudeが64.3%、GPT-5.5が58.6%。FinanceAgent v1.1でもClaudeが64.4%、GPT-5.5が60.0%です [5]。VellumのMCP Atlasでも、Claudeは79.1%でGPT-5.5の75.3%を上回っています [
2]。
Anthropic自身も、エージェント型ワークフローに関するパートナー評価を紹介しています。Claude Opus 4.7の発表では、Hebbiaが中核オーケストレーターエージェントにおけるツール呼び出し精度とプランニングで二桁の改善を見たこと、Rakuten-SWE-BenchでOpus 4.7がOpus 4.6の3倍の本番タスクを解決し、Code QualityとTest Qualityでも二桁の改善があったことが引用されています [19]。
ただし、こうした情報は有用な製品シグナルであって、自社環境での独立評価そのものではありません。自律的なリポジトリ修正、MCP、長いマルチツール処理を重視するなら、Claude Opus 4.7を先に試す価値があります。ただし、最終判断は自社のテストスイート、権限設計、ツール呼び出しパターンで確認すべきです。
GPT-5.5:ターミナル、検索、業務、数学で強い
GPT-5.5の優位が最も明確なのはTerminal-Bench 2.0です。OpenAIは、GPT-5.5が82.7%、Claude Opus 4.7が69.4%、Gemini 3.1 Proが68.5%だったと報告しています [5]。同じ表では、GPT-5.5はGDPvalのwins/tiesで84.9%、Claudeは80.3%。OfficeQA ProではGPT-5.5が54.1%、Claudeが43.6%です [
5]。
Vellumの表も、コンピューター操作、検索、推論の文脈を補います。OSWorld-VerifiedではGPT-5.5が78.7%、Claudeが78.0%で僅差。BrowseCompではGPT-5.5が84.4%、Claudeが79.3%。FrontierMath T1–3ではGPT-5.5が51.7%、Claudeが43.8%です [2]。BrowseCompでは、GPT-5.5 Proが90.1%と報告されています [
2]。
一方、コーディング全体で見れば単純ではありません。GPT-5.5はTerminal-Bench 2.0で非常に強い一方、OpenAIのSWE-Bench Pro PublicではClaude Opus 4.7を下回っています [5]。OpenAIのSystem Cardは、GPT-5.5のCoT-Control評価について、GPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verifiedなどから作られた1万3000件超のタスクを含む評価スイートだと説明しています [
26]。ただし、そのソースはDeepSeek V4やKimi K2.6との直接比較を示していません [
26]。
DeepSeek V4とKimi K2.6:このソース群では直接比較できない
DeepSeek V4については、今回のソース群に直接のベンチマーク値がありません。近いものとして、MangoMindは2026年4月のコーディング推奨でDeepSeek V3.2をSWE-bench 89.2%とし、Claude Opus 4.6の93.2%、GPT-5.4 Proの91.1%より下に置いています [1]。しかし、これはDeepSeek V3.2の数字であり、DeepSeek V4の性能を示すものではありません。
Kimi K2.6も同様です。Stanford HAIは、2026年2月時点のSWE-bench Verifiedで、KimiK2.5が70%〜76%のモデル群に含まれると述べています [13]。また、SiliconflowはKimi K2 Thinkingについて、GPQA 84.5、SWE Bench 71.3を掲載しています [
6]。どちらもKimi K2.6ではないため、Kimi系モデルの周辺情報としては参考になりますが、Kimi K2.6そのものの直接証拠にはなりません。
用途別の実務的な選び方
| 主なニーズ | 先に試す候補 | 根拠 | 注意点 |
|---|---|---|---|
| ターミナル/CLI型のコーディングエージェント | GPT-5.5 | Terminal-Bench 2.0でGPT-5.5 82.7%、Claude 69.4% [ | 自社のシェル環境、権限モデル、CI/CDで再検証する。 |
| 自律的なリポジトリ修正 | Claude Opus 4.7、次にGPT-5.5 | SWE-Bench Pro PublicでClaude 64.3%、GPT-5.5 58.6% [ | SWE-bench Verifiedと混ぜて比較しない [ |
| MCPやマルチツール連携 | Claude Opus 4.7 | MCP AtlasでClaude 79.1%、GPT-5.5 75.3% [ | 自社のツールスキーマ、リトライ設計、アクセス制御で確認する。 |
| ブラウザ/検索エージェント | GPT-5.5またはGPT-5.5 Pro | BrowseCompでGPT-5.5 84.4%、GPT-5.5 Pro 90.1%、Claude 79.3% [ | BrowseCompが社内調査業務のすべてを代表するわけではない。 |
| 金融・プロフェッショナル業務 | ClaudeとGPT-5.5をスプリットテスト | ClaudeはFinanceAgent v1.1で優位、GPT-5.5はGDPvalとOfficeQA Proで優位 [ | MindStudioは、金融系ベンチマークのスコアから実際に使われる本番ツールまでの差は、知能だけでなくエンドツーエンドのインフラにあることが多いと指摘している [ |
| 科学推論全般 | GPQAだけで決めない | VellumではClaudeとGPT-5.5のGPQA Diamondが非常に近い [ | 実タスクがベンチマーク問題と違うなら、ドメイン固有の評価を作る。 |
結論
同じベンチマークで直接比較できる範囲では、GPT-5.5はターミナル/CLIエージェント、ブラウザ/検索、オフィス系業務、いくつかの数学評価で有力候補です [5][
2]。Claude Opus 4.7は、SWE-Bench Pro Public、MCP/ツール連携、FinanceAgent v1.1で強い候補です [
5][
2]。
DeepSeek V4とKimi K2.6については、今回のソースだけではClaude Opus 4.7やGPT-5.5と公平に順位付けできません。確認できる数字はDeepSeek V3.2、KimiK2.5、Kimi K2 Thinkingなど別バージョンのものです。したがって、DeepSeek V4やKimi K2.6がClaude Opus 4.7またはGPT-5.5を上回るという主張は、このソース群の中では直接のベンチマーク数値によって裏づけられていません [1][
13][
6]。




