Cache WritesCache HitsOutput Tokensトークン数は、文字数や単語数と同じではありません。OpenAIのtiktokenガイドは、対象のencodingを使って文字列が何トークンになるかを数える方法を示しています。Geminiのドキュメントでも、Gemini APIへのinputとoutputは、テキストや画像を含めてtokenizeされると説明されています。
そのため、文字数やざっくりした換算率だけで費用を見積もると、精度は限られます。実務上見るべきなのは、対象モデルが実際に返すtoken countです。Claude Opus 4.7とClaude Opus 4.6でcount_tokensの結果が変わるという説明は、トークナイザー変更だけで同じ内容のカウントが変わり得ることを示しています。
input tokensだけを単純化して見るなら、考え方は次の通りです。
追加の入力コスト ≈(新トークナイザーのinput tokens − 旧トークナイザーのinput tokens)× input-token単価
ただし、これは入力部分だけの見積もりです。実際の請求には、output tokens、cache writes、cache hits、その他の料金項目が関わる場合があります。Anthropicのpricingはこれらの項目を分けており、OpenAIとGeminiにもそれぞれ公式pricingがあります。
本番環境でモデルに送っている内容は、user messageだけとは限りません。system指示、長いcontext、ファイル、画像などが含まれる場合があります。Geminiのドキュメントはinputとoutputがtokenizeされると説明しており、OpenAIのtoken counting guideもテキストと画像を含むinput token countingを示しています。
OpenAIにはresponses.input_tokens.countのドキュメントとtiktokenのガイドがあり、Geminiにはcount_tokensのドキュメントがあります。AnthropicもOpus 4.7の説明で/v1/messages/count_tokensに触れ、Opus 4.7ではOpus 4.6と異なるトークン数が返るとしています。
短いテストプロンプトを1本だけ測っても、全体の影響は見えません。AnthropicはOpus 4.7のトークン増加幅が内容によって変わると説明しています。高トラフィック、長文context、高コスト、頻出パターンのpayloadを分けて比較するのが現実的です。
まず新旧モデルのinput token countを比較し、その差分を対象モデルの公式pricingで入力コストに換算します。そのうえで、outputやcacheなどの項目を総コストモデルに戻します。Anthropic、OpenAI、Geminiはいずれも公式pricingを公開しています。
差分が小さければ、予算や監視の更新だけで足りるかもしれません。一方、高トラフィックのpayloadで明確に高くなるなら、プロンプトの圧縮、contextの短縮、cache戦略の見直し、1リクエストあたりコストの再計算を検討する価値があります。大切なのは「35%」という見出しだけで判断せず、公式counterと公式pricingで影響を数値化することです。
新しいトークナイザーは、同じプロンプトのトークン数を増やす可能性があります。Claude Opus 4.7については、Anthropicがテキスト処理時に従来モデルの約1x〜1.35x、最大約35%多いトークンを使う可能性があると説明しています。ただし、その増加幅は内容によって変わります。
本当に確認すべきなのは、見出しの「35%」ではありません。自社・自分の実際のpayloadでinput tokensがどれだけ増えるのか、outputの挙動は変わるのか、cache関連の料金項目がどう効くのか、そして対象ベンダーのpricingがどう適用されるのかです。
Comments
0 comments