| SWE-Bench Pro | 58.6% | 64.3% | Claude Opus 4.7がリード。実際のGitHub Issue解決に近い、難度の高いソフトウェア修正タスクを見る指標として読むべき |
| GPQA Diamond | 93.6% | 94.2% | Claudeがわずかに上。ただし差は0.6ポイントで、あらゆる推論タスクで決定的優位と見るには小さい |
| BrowseComp | 84.4% | 79.3% | GPT-5.5がリード。VellumとMashableの双方で同じ組み合わせのスコアが示されている |
| GDPval | 84.9% | 80.3% | Vellumの表ではGPT-5.5がリードしている |
| OSWorld-Verified | 78.7% | 78.0% | GPT-5.5がわずかに上。差は小さいため、実際の業務フローで再評価したい |
| MCP Atlas | 75.3% | 79.1% | ツール連携系のこの指標ではClaude Opus 4.7がリードしている |
| FrontierMath T1–3 | 51.7% | 43.8% | Vellumの表ではGPT-5.5がリードしている |
| FinanceAgent v1.1 | 同一条件で比較できる完全な対比スコアは提供ソース内に見当たらない | DataCampでは64.4% | LLM StatsはClaudeがFinanceAgent v1.1でリードするとしているが、ここでは対になるGPT-5.5の完全な数値が不足しているため慎重に読むべき |
| Humanity’s Last Exam | ソース間で不一致 | ソース間で不一致 | 同一条件で再実行しない限り、タイブレーカーには向かない。LLM Stats、Mashable、o-megaで示す傾向が食い違っている |
LLM Statsのまとめでは、両社が報告している10個のベンチマークのうちClaude Opus 4.7が6個、GPT-5.5が4個でリードしています。同じ集計は、Claudeの強みを推論負荷の高いタスクやレビュー品質の評価、GPT-5.5の強みを長時間のツール利用やシェル中心の作業にあると整理しています 。この見方は有用ですが、Humanity’s Last Examのようにデータが食い違う項目まで解決してくれるわけではありません
。
ターミナルを操作するエージェント型コーディングでは、公開データ上はGPT-5.5が有力候補です。GPT-5.5はTerminal-Bench 2.0で82.7%を記録し、Claude Opus 4.7の69.4%を大きく上回っています 。OpenAIはTerminal-Bench 2.0について、複雑なコマンドラインワークフローにおける計画、反復、ツール連携を測るベンチマークだと説明しています
。
これは、CLIコパイロット、DevOps支援、テストを走らせてエラーを読み、ファイルを修正して再試行するようなコーディングエージェントでは重要です。このタイプの製品では、一般的な推論ベンチマークよりもTerminal-Bench 2.0のほうが優先度の高い判断材料になります。
一方、実際のリポジトリでIssueを直す能力を見るなら、Claude Opus 4.7がSWE-Bench Proで64.3%を取り、GPT-5.5の58.6%を上回っています 。OpenAIもSWE-Bench Proを、実世界のGitHub Issue解決能力を評価するものと説明しています
。バグ修正、既存コードベースへの変更、レビュー品質が問われるソフトウェア作業に近いなら、Claude Opus 4.7は最初の検証候補に入れるべきです。
なお、SWE-Bench Verifiedについては、この資料群だけでは勝敗をきれいに決められません。MindStudioはClaude Opus 4.7を82.4%とし、APIyiとDataCampは87.6%としています。少なくとも、同じ条件でGPT-5.5とClaude Opus 4.7を安定して比較できる一組の数字は、ここで提供されたソースからは確認しにくい状況です 。
エージェント型ワークフローでは、GPT-5.5に良いシグナルが複数あります。Vellumの表では、GPT-5.5はBrowseCompで84.4%対79.3%、GDPvalで84.9%対80.3%、OSWorld-Verifiedで78.7%対78.0%とClaude Opus 4.7を上回っています 。MashableもBrowseCompについて、GPT-5.5が84.4%、Claude Opus 4.7が79.3%という同じ対比を示しています
。また、LLM StatsはGPT-5.5がCyberGymでリードするとしていますが、提供されたスニペット内ではパーセンテージまでは確認できません
。
一方で、Claude Opus 4.7にも見逃せない領域があります。Vellumの表ではMCP AtlasでClaude Opus 4.7が79.1%、GPT-5.5が75.3%です 。LLM StatsはFinanceAgent v1.1でClaudeがリードするとまとめており、DataCampはClaude Opus 4.7のFinanceAgent v1.1スコアを64.4%としています
。AnthropicもClaude Opus 4.7について、コーディング、エージェント、ビジョン、複数ステップのタスクで強化されたモデルだと説明しています
。
つまり、シェル操作、ブラウジング、OS操作に近い自動化ならGPT-5.5を先に試す価値があります。反対に、構造化されたツール連携、MCP系のワークフロー、金融エージェントのような用途では、Claude Opus 4.7を早い段階で直接ベンチマークすべきです。
GPQA Diamondでは、Claude Opus 4.7が94.2%、GPT-5.5が93.6%です 。Claudeが上ではありますが、差は0.6ポイントにすぎません。科学系QA、専門知識を要する分析、長い推論を伴うタスクでは、この差だけで決めるより、自社の実データや想定質問で両方を走らせるほうが現実的です。
Humanity’s Last Examは、特に慎重に扱うべき項目です。LLM Statsは、ツールなしHLEとツールありHLEの両方でClaude Opus 4.7がリードするとしています 。一方、MashableはツールなしHLEでGPT-5.5が40.6%、Opus 4.7が31.2%、ツールありHLEではClaudeが54.7%、GPT-5.5が52.2%としています
。さらにo-megaは別のHLEスコア群を示しています
。このようにソース間で数字が揺れている場合、同一セットアップで再評価しない限り、HLEを最終判断の決め手にするべきではありません。
まずGPT-5.5を試すべきなのは、ターミナル上で動くエージェント、シェルワークフロー、テスト実行と修正のループ、複数ステップの自動化を重視する場合です。Terminal-Bench 2.0の差は大きく、GPT-5.5に明確な追い風があります 。また、Vellumの表を見る限り、ブラウジングや検索に近いワークフロー、GDPval、OSWorld-Verified、FrontierMath T1–3でもGPT-5.5は有力です
。
先にClaude Opus 4.7を試すべきなのは、SWE-Bench Proに近い実リポジトリのIssue修正を重視する場合です。この指標ではClaudeがGPT-5.5を上回っています 。さらに、GPQA型の科学・専門推論、MCP Atlasのようなツール連携、FinanceAgent v1.1に近い金融エージェントのワークフローでも、Claude Opus 4.7はショートリストに入れる価値があります
。
最も安全なのは、公開リーダーボードだけで選ばないことです。自社のワークロードを、リポジトリ内コーディング、ターミナル/エージェント自動化、ツールなし推論、ツールありワークフローの4つに分け、同じプロンプト、同じツール権限、同じサンプリング設定、同じreasoning effort、同じ採点基準で比較してください。公開ベンチマークはどこから試すかを教えてくれますが、本番投入に値するかを決めるのは内部評価です。特に一部の公開スコアが自己申告または独立検証前である可能性があるなら、なおさらです 。
Comments
0 comments