モデルの直接比較は、ベンチマークのバージョンやテスト手順の違いにより複雑だ。同一テストでスコアが得られる範囲では、Opus 4.8は開発者が最も重視する領域でGPT-5.5を上回る。
| ベンチマーク | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Verified(コーディング) | 88.6% | 87.6% | 直接比較不可 |
| SWE-bench Pro(エージェント型コーディング) | 69.2% | 64.3% | 58.6% |
| Terminal-Bench 2.1 | 74.6% | — | — |
| Terminal-Bench 2.0 | — | 69.4% | 82.7% |
| 複合的推論(ツールあり) | 57.9% | 54.7% | 直接比較不可 |
| 複合的推論(ツールなし) | ~62.1% | — | — |
| GPQA Diamond(大学院レベルの科学) | 93.6% | 94.2% | — |
| MMLU(幅広い知識) | — | 91.3% | — |
| AIME 2024(数学競技) | — | 99.8% | — |
| CursorBench | 最高位 | ベースライン | — |
| GDPval-AA(知識労働) | 1890 | 1753 | 1769 |
| Super-Agent(エンドツーエンド) | 100% | — | 100%未満 |
| エージェント型コンピュータ操作 | 83.4% | 82.8% | 78.7% |
SWE-bench Proは実世界のソフトウェアエンジニアリングタスクにおいて最も広く参照されるベンチマークだ。Opus 4.8は69.2%を記録し、GPT-5.5の58.6%を10.6ポイントリードしている 。既にリードしていたOpus 4.7(64.3%)からさらに差を広げた形だ。Anthropicの発表では、タスク完了速度の向上と、以前のモデルと比較してバグの見過ごしが4分の1に減少したことを強調している
。
このベンチマークは慎重な解釈が必要だ。GPT-5.5はTerminal-Bench 2.0で82.7%を報告しているが 、Opus 4.8の74.6%はより新しいバージョン2.1で測定されている
。両者は直接比較できない。さらに、OpenAIの82.7%という主張には精査が入っており、ベンチマーク所有者のリーダーボードでは同日に82.0%±2.2と表示されていた
。Opus 4.7はTerminal-Bench 2.0で69.4%
、また異なるテストハーネスを用いた独立テストでは、GPT-5.5がこのベンチマークでGPT-5.4を下回るケースも見られた
。
知識労働の評価指標であるGDPval-AAでは、Opus 4.8がEloスコア1890を達成。GPT-5.5の1769に対し、約7%の優位性がある 。Opus 4.8はまた、AnthropicのSuper-Agentベンチマークで初めて100%の完了率を達成したモデルでもある。これはテストスイート内のすべてのエンドツーエンド・エージェントタスクを成功させたことを意味する
。GPT-5.5は100%に達していない。
エージェント型コンピュータ操作(OSWorld-Verified)のスコアは拮抗している。Opus 4.8が83.4%、GPT-5.5が78.7%、Opus 4.7が82.8% 。これらは世代を画する飛躍ではなく、一桁台のポイント差での改善に留まっている。
Opus 4.8発表時にAnthropicが公開した共通ベンチマークにおいて、GPT-5.5のベンチマークカバレッジは薄い。これは部分的に、OpenAIが異なる指標に注力しているためだ。GPQA Diamond(大学院レベルの科学的推論)では、Opus 4.7が94.2%を記録 。過去の比較では、純粋な数学的推論や一部の知識想起テストでGPT-5.4がOpus 4.7に対してわずかな優位性を示していた
。Opus 4.8とGPT-5.5のGPQA直接比較はまだ利用できないが、Opus 4.8は93.6%と報告されている
。
OpenAIはまた、GPT-5.5がコーディングタスクあたりの出力トークンをGPT-5.4より約40%削減するとしており、これは特定のワークロードにおいてトークン単価の高さを部分的に相殺する可能性がある 。
| スペック | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| コンテキストウィンドウ | 100万トークン | 100万トークン | 100万トークン |
| 高速モード | 2.5倍速($10/$50) | 2.5倍速($10/$50) | なし |
| リリース日 | 2026年5月28日 | 2026年4月16日 | 2026年4月23日 |
| バッチ割引 | 50% | 50% | 50%(Flex) |
| プロンプトキャッシング | あり(最大90%オフ) | あり(最大90%オフ) | あり(90%オフ) |
三者とも100万トークンのコンテキストウィンドウに収束している。ただし、AnthropicはOpus 4.8の最大出力をリクエストあたり128Kトークンと明記している 。GPT-5.5の最大出力は32Kトークンだ
。
Claudeの高速モードはオプションで、約2.5倍の速度で動作する。Anthropicによると、Opus 4.8の高速モードは、前世代のOpusにおける高速推論より3倍安価になった 。GPT-5.5には同等の高速ティアは提供されていない。
独立系ベンチマークを読む際は、その限界を理解しておく必要がある。
Claude Opus 4.8を選ぶべきケース: エージェント型コーディング、コンピュータ操作タスク、知識労働、または長文コンテキスト操作がワークロードの中心である場合。比較可能なすべての共通ベンチマークでリードしており、価格はOpus 4.7から据え置きだ。
GPT-5.5を選ぶべきケース: OpenAIのエコシステムに深く組み込まれている場合、純粋な数学的推論を優先する場合、あるいはトークン効率の向上が、特定のプロンプトパターンにおいてトークン単価の高さを埋め合わせると期待できる場合。
Opus 4.7を使い続けるべきケース: フロンティアレベルのエージェント型コーディング(SWE-bench Pro 64.3%は依然としてGPT-5.5を大きくリード)が必要で、Opus 4.8の特定の向上点を必要としない場合。しかし、価格が同一である以上、アップグレードしない理由はほとんどない。
出力の多いエージェントや長文ドキュメント分析を運用する開発者にとって、Claude Opusの出力価格が17%安く、長文コンテキスト料金が一律であることは、月々のAPI利用料に具体的な差をもたらすだろう。
Comments
0 comments