Claude Opus 4.7は、1つのベンチマークだけで語るよりも、複雑な推論、エージェント型コーディング、長い作業フローに向けたモデルとして見るほうが実態に近いモデルです。Anthropicはドキュメントで、Claude Opus 4.7を複雑な推論とエージェント型コーディングにおける同社の一般提供モデルの中で最も高性能なモデルと説明しています [1]。またAWSは、Opus 4.6からのアップグレードとして、エージェント型コーディング、ナレッジワーク、視覚理解、長時間タスクなど本番運用のワークフローで改善があると紹介しています [
7]。
開発者にとって最も目を引く数字は、AWSがAnthropicのデータとして報告した SWE-bench Verified 87.6% です [7]。ただし、この数値だけを切り取って「どんな用途でも87.6%の性能」と読むのは危険です。AWS自身も、Opus 4.7を最大限活用するにはプロンプトの変更や評価ハーネス、つまり評価用の実行環境や採点手順の調整が必要になる場合があると述べています [
7]。
主要ベンチマークの整理
| 領域 | ベンチマーク | 報告値 | どう読むべきか |
|---|---|---|---|
| コーディング/エージェント | SWE-bench Verified | 87.6% | Claude Opus 4.7のソフトウェア課題解決力を示す代表的な数字として最も引用しやすい指標 [ |
| コーディング/エージェント | SWE-bench Pro | 64.3% | SWE-bench Verifiedだけでは見えない、別の難度や条件のソフトウェア評価として併読したい数字 [ |
| ターミナル操作を含むエージェント | Terminal-Bench 2.0 | 69.4% | ターミナル環境やツール操作を伴うワークフローに近い場合に参考になる指標 [ |
| 金融エージェント | Finance Agent v1.1 | 64.4% | 金融分析や金融系の自動化フローを検討する際に関連度が高い数字 [ |
| 社内コーディング評価 | 93タスクの内部ベンチマーク | Opus 4.6比で解決率13%向上 | 特定の社内評価における相対改善であり、すべての開発プロジェクトで一律に13%改善するという意味ではない [ |
| 社内research-agent評価 | 総合スコア | 0.715 | Anthropicが、マルチステップ作業における強い結果として示している内部評価 [ |
| 社内research-agent評価 | General Finance | 0.813、Opus 4.6は0.767 | Anthropicの内部金融モジュールでは、Opus 4.6からの改善が示されている [ |
SWE-bench Verified 87.6%は何を意味するのか
AIを「コーディングエージェント」として使うチームにとって、SWE-bench Verifiedの87.6%は、現時点で最も分かりやすい見出しになる数字です。AWSはClaude Opus 4.7について、このベンチマークで87.6%を報告しています [7]。AnthropicがOpus 4.7を複雑な推論とエージェント型コーディングに強いモデルと位置づけていることとも整合します [
1]。
ただし、SWE-bench Verifiedはあくまで特定の能力を見るためのベンチマークです。ソフトウェア課題の解決力を見るうえでは重要ですが、ターミナル操作、金融ワークフロー、視覚理解、長時間タスク、調査型エージェントの性能まで一括して代表する数字ではありません。
そのため技術選定では、SWE-bench Verifiedを出発点にしつつ、SWE-bench ProやTerminal-Bench 2.0も並べて見るのが現実的です [6][
7]。日本の開発現場でいえば、単に「コードが書けるか」だけでなく、既存リポジトリの制約、テスト実行、CLIツール、社内ルールへの追従まで含めて評価しないと、導入後の使い勝手は判断しにくいからです。
なぜ違う数字が出てくるのか
注意したいのは、すべての情報源が同じ数値を出しているわけではない点です。ある二次情報ではClaude Opus 4.7のSWE-bench Verifiedを 82.4% としている一方、AWSは 87.6% と報告しています [2][
7]。
この差は小さくありません。だからこそ、ベンチマークを引用するときは、少なくとも ベンチマーク名、スコア、出典 をセットで書くべきです。さらにAWSは、Opus 4.7ではより良い結果を得るためにプロンプト変更やハーネス調整が必要になる場合があると述べており、評価設定が観測される性能に影響しうることも示唆しています [7]。
用途別に見るべきベンチマーク
主な用途がプログラミングなら、まず見るべきはSWE-bench Verifiedです。ただし、それだけで判断せず、より別条件のソフトウェア評価としてSWE-bench Pro、ターミナルやツール操作を含む評価としてTerminal-Bench 2.0も確認したほうがよいでしょう [6][
7]。
用途が金融分析や調査型エージェントに近いなら、Anthropicの内部research-agentベンチマークも参考になります。Opus 4.7は総合スコア0.715を記録し、General Financeでは0.813で、Opus 4.6の0.767を上回ったとされています [8]。ただし、これは内部評価であり、独立した第三者検証と同じものとして扱うべきではありません。
関心が企業向けの長いワークフローにある場合は、公開ベンチマークの数字だけでは足りません。AWSは、Opus 4.7が曖昧さの中でよりうまく動き、問題解決がより丁寧で、指示への追従もより正確になったと紹介しています [7]。この種の改善は、社内ドキュメント、既存ツール、プロンプト、権限設計まで含めた自社環境で試して初めて見えてきます。
結論:87.6%は強いが、比較は用途別に
Claude Opus 4.7で最も強く、かつ引用しやすいベンチマークは SWE-bench Verified 87.6% です。特にエージェント型コーディングの文脈では重要な数字です [7]。
一方で、全体像はもう少し立体的です。AWSが報告する数値にはSWE-bench Pro 64.3%、Terminal-Bench 2.0 69.4%、Finance Agent v1.1 64.4%もあり、Anthropicは内部評価としてマルチステップ作業や金融領域での改善も示しています [7][
8]。
したがって、Claude Opus 4.7を比較するうえで大切なのは「一番高い数字はどれか」ではなく、自分たちの実際のワークフローに近いベンチマークはどれかです。ソフトウェア開発ならSWE-bench Verifiedが出発点になりますが、エージェント運用、ターミナル操作、金融、調査業務では、補助的なベンチマークや自社ハーネスでの検証が同じくらい重要になります。




