prompt cachingを使う場合は、再利用できるコンテキストを分けて考えます。最初に5分キャッシュへ書き込む部分は$6.25/MTok、1時間キャッシュへ書き込む部分は$10/MTok、以後のcache hit / refreshは$0.50/MTokです。キャッシュされない新しい質問や新規メッセージは通常のinput単価、モデルの回答はoutput単価で計算します。
文書を1回だけ分析し、その後に追問しないなら、見積もりは比較的シンプルです。文書、システムプロンプト、質問をinput tokensとして数え、モデルの回答をoutput tokensとして数えます。以下はClaude APIの公開価格による概算です。
| シナリオ | Input | Output | 概算コスト |
|---|---|---|---|
| 短めの長文書要約 | 100k | 5k | 約$0.625 |
| 中〜大規模の文書分析 | 300k | 8k | 約$1.70 |
| 超大型文書の分析 | 1M | 10k | 約$5.25 |
たとえば300k input + 8k outputなら、計算はこうです。
300,000 / 1,000,000 × 5 = 1.50
8,000 / 1,000,000 × 25 = 0.20
合計 = 1.70米ドルただし、旧モデルからOpus 4.7へ移行する場合、過去のトークン見積もりをそのまま使うのは危険です。Anthropicの料金ドキュメントは、Opus 4.7が新しいtokenizerを使うため、同じ固定テキストでもトークン数が最大35%増える可能性があるとしています。
たとえば従来300k inputと見積もっていた文書を、保守的に405k inputとして見ると、8k outputとの合計は次のようになります。
405,000 / 1,000,000 × 5 = 2.025
8,000 / 1,000,000 × 25 = 0.20
合計 ≈ 2.23米ドル長文書を扱うアプリで見落としやすいのは、回答そのものよりも、同じ大きな文書を毎ターンinputとして再送してしまうコストです。同じ文書に対して複数回質問するなら、最初からprompt cachingを予算モデルに入れるべきです。
前提を次のように置きます。
| 方法 | コスト構成 | 概算コスト |
|---|---|---|
| 初回:5分キャッシュを作成 | 300k × $6.25/MTok + 2k × $5/MTok + 2k × $25/MTok | 約$1.935 |
| 以後:cache hit | 300k × $0.50/MTok + 2k × $5/MTok + 2k × $25/MTok | 約$0.21 |
| キャッシュなし:毎回全文を再送 | 302k × $5/MTok + 2k × $25/MTok | 約$1.56 |
この例では、初回のキャッシュ作成は、キャッシュなしの1回分より高くなります。ところが、同じ文書に2回目の質問をした時点で、総額はキャッシュありのほうが安くなります。
キャッシュなし、2回:約1.56 × 2 = 3.12米ドル
5分キャッシュあり、2回:約1.935 + 0.21 = 2.145米ドルつまり、長文書Q&Aで大事なのはcache hit rateです。ユーザーが本当に同じ文書を繰り返し尋ねるのか、追問がキャッシュ有効期間内に発生するのか、各ターンで未キャッシュの新規コンテキストを大量に追加していないかを見ないと、実際の請求額は読み違えやすくなります。
長い会話のコスト構造も、長文書とほぼ同じです。アプリが毎回大量の会話履歴をモデルへ送り直すと、inputコストはすぐ積み上がります。安定して再利用できる履歴コンテキストは、prompt cachingの対象として検討する価値があります。
前提を次のように置きます。
| 方法 | 概算コスト |
|---|---|
| キャッシュなし:毎ターン200k履歴 + 1k新規メッセージ + 2k出力 | 約$1.055 / ターン |
| 200k履歴を5分キャッシュへ書き込む初回ターン | 約$1.305 |
| 5分キャッシュ命中後の各ターン | 約$0.155 / ターン |
| 200k履歴を1時間キャッシュへ書き込む初回ターン | 約$2.055 |
| 1時間キャッシュ命中後の各ターン | 約$0.155 / ターン |
5分キャッシュにするか、1時間キャッシュにするかは、書き込み単価だけでは決められません。見るべきはユーザー行動です。
バッチ処理は、オフライン分析、データラベリング、大量要約、大量分類などで使われます。ただし、自社アカウント、契約、利用するプラットフォームでどのbatch pricingが適用されるか確認できていない段階では、正式な予算に未検証の割引を織り込むべきではありません。まずは同期APIの公開価格で保守的に見積もり、実際に適用されるバッチ価格が確認できたら下方修正するのが安全です。
同期APIの公開価格で見るなら、式は変わりません。
総コスト = 総input tokens / 1,000,000 × 5
+ 総output tokens / 1,000,000 × 25例として、10,000件のタスクがあり、1件あたり2k input + 500 outputを使うとします。
総input = 10,000 × 2,000 = 20,000,000 tokens
総output = 10,000 × 500 = 5,000,000 tokens
inputコスト = 20 × 5 = 100米ドル
outputコスト = 5 × 25 = 125米ドル
合計 = 225米ドルこの$225は、batch discountを一切入れない保守的な同期API価格での試算です。あとから適用可能なバッチ価格を確認できたら、単価を実価格に差し替えればよいです。
また、AnthropicのClaude APIへ直接接続するのではなく、クラウドプラットフォームや第三者のモデルルーターを経由する場合、実際の請求額は変わる可能性があります。第三者データのCloudPriceは、Opus 4.7についてAnthropic / globalの種別では$5 input / $25 output per MTokを示す一方、一部のAWS Bedrockのリージョン型コードでは$5.50 input / $27.50 output per MTokも掲載しています。こうした情報は確認のきっかけにはなりますが、正式な調達や予算承認では、自社が使うプラットフォームの請求画面、契約、公式ドキュメントを優先してください。
実際のtoken分布がまだない段階で、理論値だけを使うと予算は楽観的になりがちです。少なくとも次の3点は安全側に見ておきたいところです。
Anthropicの公式価格ではなく、予算管理上の目安としては、次のような係数を置くと保守的です。
| フェーズ | 予算係数の目安 |
|---|---|
| PoC / 試験運用 | 理論値 × 1.2〜1.5 |
| 本番運用、トラフィックが比較的安定 | 理論値 × 1.35〜1.6 |
| 旧モデルからOpus 4.7へ移行し、長いコンテキストに大きく依存 | 理論値 × 1.5〜1.8 |
これらはAnthropicの公式見積もりではありません。本番後は、実際のtokenログ、cache hit rate、請求書データを使って予算モデルを更新するのが前提です。
キャッシュを使わない場合、月額はまず次の式で概算できます。
月額コスト ≈ 1日のリクエスト数 × 30
× (平均input tokens / 1,000,000 × 5
+ 平均output tokens / 1,000,000 × 25)キャッシュを使う場合は、必ず分解して計算します。
月額コスト ≈ 通常inputコスト
+ cache writeコスト
+ cache hit / refreshコスト
+ outputコスト実装前に、少なくとも次の変数は埋めておきたいところです。
| 変数 | 例 |
|---|---|
| 1回あたり平均input tokens | 300,000 |
| 1回あたり平均output tokens | 8,000 |
| 1日のリクエスト数 | 1,000 |
| Cache write tokens | 文書1件あたり300,000 |
| Cache hit tokens | 命中1回あたり300,000 |
| Cache hit rate | 60% |
| Tokenizer移行バッファ | 最大でまず×1.35 |
| 運用バッファ | 例:×1.35〜1.6 |
同じ長文書に何度も質問する、または長い会話で毎ターン大量の履歴を使うなら、prompt cachingを必ず試算に入れるべきです。300k文書、2k質問、2k出力の例では、5分キャッシュの2回目以降の命中は約$0.21、毎回全文を再送すると約$1.56という差になります。
バッチ処理は、適用されるbatch pricing、クラウドプラットフォーム価格、契約単価を確認するまでは、同期APIの公開価格で保守的に予算を置くのが無難です。旧モデルからOpus 4.7へ移る場合は、inputトークン見積もりに最大1.35倍のtokenizerバッファをかけ、さらに運用バッファを積むほうが、単価表だけを見るより実際の請求額に近づきます。
Comments
0 comments