コマンドライン上でのエージェント型コーディングを評価する「Terminal-Bench 2.1」では、スコアは74.6%だった。これはGPT-5.5の78.2%には及ばないものの、Opus 4.7が同テストで記録した66.1%からは大幅なジャンプアップである 。エージェントによるコンピュータ操作を評価する「OSWorld-Verified」では83.4%に到達し、Opus 4.7の82.8%、GPT-5.5の78.7%を上回った
。
専門知識を要する作業の指標「GDPval-AA」では、Eloレーティングで1890を記録し、GPT-5.5の1769、Geminiの1314に大きな差をつけた 。学際的推論能力を問う「Humanity's Last Exam」では、ツール使用時に57.9%を記録。これはツールなしの49.8%を大きく上回り、Anthropicの一般公開モデルとして最高の結果である
。
AnthropicはOpus 4.8を、意味のある形で「より正直なモデル」と位置づけている。同社の評価によれば、このモデルは自己評価において、コードの欠陥を見逃してしまう可能性がOpus 4.7と比較して約4分の1に低減されているという 。
欺瞞や悪用への協力といった「不適切な振る舞い」の発生率も、Opus 4.7より大幅に低く、Anthropicが最も適切に調整された(アラインメントされた)モデルと見なす「Claude Mythos Preview」に匹敵する水準にある 。これは、AIに本番コードのレビューや生成を依存する開発者にとって極めて重要だ。自信満々に欠陥のある出力を返すのではなく、自らの盲点を適切に指摘できるモデルが求められているからだ。
ユーザーにとって最も目に見える変更点は、claude.aiおよびCoworkインターフェースに新たに追加された「努力レベル(Effort Control)」の調整ダイヤルだ 。ユーザーは、Claudeが回答に費やす計算リソースを以下の複数段階から選択できるようになった。
Claude Codeでは、努力レベルを上げた際のトークン消費量増加に対応するため、利用制限(レート制限)も引き上げられている 。これにより、開発者は複雑なコーディングやエージェントタスクにおいて、レイテンシ、コスト、推論の深さのトレードオフをよりきめ細かく制御できる。
大規模な問題に取り組む開発者向けに、AnthropicはClaude Code for Enterprise、Team、Maxプラン加入者を対象とした研究プレビュー機能「動的ワークフロー(Dynamic Workflows)」の提供を開始した 。
この機能は、Claude自身がタスクを計画し、単一のセッション内で数百の並列サブエージェントを生成・実行することを可能にする。各サブエージェントの出力は検証された後に報告されるため、数十万行に及ぶコードベース規模の移行作業にも耐えうる信頼性を備えている 。まるでAIがプロジェクト全体を監督する「工場長」のように振る舞うイメージである。
Opus 4.8の標準利用料金は、Opus 4.7と完全に同一である。入力トークン100万あたり5ドル、出力トークン100万あたり25ドルだ 。プロンプトキャッシングの書き込み料金や更新料金も、プレミアムOpusティアの水準が維持されている
。
より重要な変更点は「高速モード(Fast Mode)」の価格設定である。Opus 4.8の高速モードは、最大2.5倍の出力トークン生成速度を実現しながら、価格は入力トークン100万あたり10ドル、出力同50ドルと、従来のOpus 4.6/4.7向け高速モード(入力30ドル/出力150ドル)から約3分の1にまで引き下げられた 。
AnthropicはOpus 4.6向けの高速モードをすでに非推奨としており、ユーザーにはOpus 4.8または4.7の高速モードへの移行を案内している 。API経由で高速モードを利用するには、モデルID
claude-opus-4-8 を指定し、パラメータ speed: "fast"fast-mode-2026-02-01 を含める必要がある 。
このモデルは本日より、Claude API上でエイリアス claude-opus-4-8 を使用して利用可能である。高速モードやプロンプトキャッシング、バッチ処理といった設定にも対応している 。AnthropicのAPIドキュメントおよびプラットフォームのリリースノートでは、Claude for Pro、Max、Team、Enterpriseの各プランの顧客が、Opus 4.8に即座にアクセスできることが確認されている
。
Opus 4.8の発表と同時に、Anthropicは「Project Glasswing(グラスウィング計画)」のもとで制限公開されてきた最上位のアーキテクチャ「Mythosクラス」モデルの一般提供計画について、これまでで最も明確な言及を行った。
2026年4月7日以降、「Claude Mythos Preview」は約50の防御的セキュリティパートナーだけに提供されてきた 。このモデルの攻撃的なサイバーセキュリティ能力は極めて高く、Anthropicは一般公開を控えてきたのである
。
5月28日のアップデートで、Anthropicは「Mythosクラスのモデルを数週間以内に全顧客にリリースする計画」と公式に発表した 。これはProject Glasswing開始以来、最も具体的なスケジュール感である。また同時に、ポストマネー評価額9650億ドルでの650億ドル(約10兆円)規模のシリーズH資金調達も発表しており、MythosクラスのAI技術が研究段階から商用の本流へと急速に移行しつつあることを裏付けている
。
Claude Opus 4.8は、以下の3つの実践的な変化をもたらす漸進的なアップグレードである。
新しいモデルへの移行を検討しているチームは、特に自己修正、不確実性の指摘、並列サブエージェントのオーケストレーションが重要となる長時間のコーディングやエージェントタスクで、実際にOpus 4.8をテストすることを強く推奨する。
Comments
0 comments