しかし、開発現場の実コストはもう少し複雑です。長いリポジトリ情報、差分、テストログ、ツール呼び出し、再試行、prompt caching、エージェントの往復回数が積み上がります。特に見落としやすいのがトークン化です。Anthropicは、Opus 4.7の新トークナイザーでは、内容によって従来モデルの約1x〜1.35xのトークンを使う可能性があると説明しています。
そのため、最適化すべき指標はcost per million tokensではなく、cost per completed taskです。Opus 4.7によって難しいタスクの完了率が上がり、修正依頼、rollback、人手の介入が減るなら、トークン費用が増えても採算が合う場合があります。逆に、品質がほぼ変わらずトークン数だけ増えるなら、アップグレードはコスト面で不利になります。
評価はデモ用プロンプトではなく、実際の業務タスクで行うべきです。バックログ、過去のバグ、既にmerge済みのpull requestなどからサンプルを取り、次のように分けると判断しやすくなります。
比較時は、Opus 4.7と現在のモデルで、プロンプト、利用ツール、リポジトリアクセス、採点基準をそろえます。最低限、次の指標を取りたいところです。
自動テストがない場合は、ブラインドレビューや固定rubricで採点します。一般的なベンチマークは参考になりますが、自社のリポジトリ、プロンプト、ツール設計での結果が最終判断になります。
claude-opus-4-7をモデル選択肢として追加する。いきなり全体のデフォルトにはしない。Opus 4.7を広く使うべきなのは、難しいタスクの完了率が上がる、人手介入が減る、tool errorが減る、現在のモデルが途中で詰まるタスクを最後まで進められる、といった効果が自社の評価で確認できた場合です。試す理由は明確です。AnthropicはOpus 4.7をcoding、agents、multi-step tasksで強化されたモデルとして位置づけ、APIで使えるモデルIDも提供しています。
反対に、主なワークロードが短い定型タスクで、深い多段推論をあまり必要としないなら、現在のモデルを標準のままにしておく判断も十分あり得ます。A/Bテストでcost per taskが上がり、品質改善がはっきりしない場合も同じです。
Claude Opus 4.7の正しい導入は、全トラフィックを一気に移すことではありません。難しいタスクを見極め、そこだけに回し、手戻り削減が費用に見合うかを測ることです。
Comments
0 comments