Claude Opus 4.7 的 API 預算,不能只看單次請求多少 tokens。真正容易讓帳單放大的,是長文件或長對話在每一輪都被重新送入模型;如果上下文會重複使用,prompt caching 會成為成本分水嶺。
Anthropic 表示開發者可透過 Claude API 使用 claude-opus-4-7;以下試算只採用 Claude API 公開定價,不含企業合約、雲端平台端點、第三方路由、稅費或匯率差異。[11]
先把官方 MTok 單價算對
Claude API 定價文件以每百萬 tokens,也就是 MTok,列出 Opus 4.7 的 base input、output 與 prompt caching 價格。[2]
| 計費項目 | Claude Opus 4.7 公開價 |
|---|---|
| Base input tokens | $5 / 1M tokens |
| Output tokens | $25 / 1M tokens |
| 5 分鐘 cache write | $6.25 / 1M tokens |
| 1 小時 cache write | $10 / 1M tokens |
| Cache hit / refresh | $0.50 / 1M tokens |
不用 cache 時,最基本的 API 成本公式是:[2]
成本 = input_tokens / 1,000,000 × 5
+ output_tokens / 1,000,000 × 25使用 prompt caching 時,則要把可重用上下文拆開:第一次寫入 5 分鐘 cache 的部分按 $6.25/MTok,第一次寫入 1 小時 cache 的部分按 $10/MTok,後續 cache hit / refresh 按 $0.50/MTok;未被快取的新問題、新訊息仍按一般 input 價格,模型輸出仍按 output 價格。[2]
一次性長文件分析:直接用 input + output
如果一份文件只分析一次,沒有後續追問,預算最簡單:文件、系統提示與問題都算 input tokens;模型回答算 output tokens。以下範例皆以 Claude API 公開價試算。[2]
| 情境 | Input | Output | 試算成本 |
|---|---|---|---|
| 較短的長文件摘要 | 100k | 5k | 約 $0.625 |
| 中大型文件分析 | 300k | 8k | 約 $1.70 |
| 超大型文件分析 | 1M | 10k | 約 $5.25 |
以 300k input + 8k output 為例:
300,000 / 1,000,000 × 5 = 1.50
8,000 / 1,000,000 × 25 = 0.20
合計 = 1.70 美元遷移到 Opus 4.7 時,不建議直接沿用舊模型的 token 預估。Anthropic 定價文件註明 Opus 4.7 使用新 tokenizer,同一段固定文字的 token 數最多可能增加 35%。[2]
例如原本估 300k input,保守抓成 405k input;搭配 8k output 時:
405,000 / 1,000,000 × 5 = 2.025
8,000 / 1,000,000 × 25 = 0.20
合計 ≈ 2.23 美元同一份長文件反覆問答:cache 是分水嶺
長文件產品最常低估的成本,不是單次輸出,而是同一份大文件在每輪對話中反覆作為 input 計費。若文件會被多次查問,應先把 prompt caching 納入預算模型。[2]
假設:
- 文件:300k tokens
- 每次新問題:2k tokens
- 每次回答:2k output tokens
- 使用 5 分鐘 prompt cache
| 做法 | 成本組成 | 試算成本 |
|---|---|---|
| 第一次:建立 5 分鐘 cache | 300k × $6.25/MTok + 2k × $5/MTok + 2k × $25/MTok | 約 $1.935 |
| 後續:cache hit | 300k × $0.50/MTok + 2k × $5/MTok + 2k × $25/MTok | 約 $0.21 |
| 不用 cache:每次重送全文 | 302k × $5/MTok + 2k × $25/MTok | 約 $1.56 |
在這個例子中,第一輪建立 cache 比不用 cache 還貴;但只要同一份文件進入第二輪請求,總成本就低於每次重送全文:
不用 cache,兩輪:約 1.56 × 2 = 3.12 美元
用 5 分鐘 cache,兩輪:約 1.935 + 0.21 = 2.145 美元因此,長文件問答的預算重點是 cache hit rate:文件是否真的會被重複問、追問是否落在 cache 有效期內,以及每輪是否仍帶入大量未快取的新內容。[2]
長對話預算:不要讓歷史訊息每輪重算
長對話的成本邏輯與長文件相同。若應用每輪都把大量歷史訊息送回模型,input 成本會快速累積;可重用且穩定的歷史上下文應優先評估 prompt caching。[2]
假設:
- 歷史對話:200k tokens
- 每輪新訊息:1k tokens
- 每輪輸出:2k tokens
| 做法 | 試算成本 |
|---|---|
| 不用 cache:每輪帶 200k 歷史 + 1k 新訊息 + 2k 輸出 | 約 $1.055 / 輪 |
| 先把 200k 歷史寫入 5 分鐘 cache:第一次那輪 | 約 $1.305 |
| 5 分鐘 cache hit 後:每輪 | 約 $0.155 / 輪 |
| 先把 200k 歷史寫入 1 小時 cache:第一次那輪 | 約 $2.055 |
| 1 小時 cache hit 後:每輪 | 約 $0.155 / 輪 |
選 5 分鐘或 1 小時 cache,不應只看寫入單價,而要看使用者行為:
- 使用者通常會在 5 分鐘內連續追問:先估 5 分鐘 cache。
- 使用者常隔超過 5 分鐘才回來,但多半在 1 小時內繼續:1 小時 cache 的第一次寫入較貴,但可能減少反覆失效與重建。
- 回覆間隔不可預測:先用真實流量抽樣,量 cache hit rate,再調整架構。
批次任務:先用同步公開價抓保守預算
批次任務常見於離線分析、資料標註、批量摘要或大量分類。不過在尚未確認你的帳戶、合約或平台端點適用的 batch pricing 前,正式預算不應先寫入未核實折扣。保守做法是先按同步 API 公開價估算,再用實際確認的批次價格下修。[2]
同步公開價公式仍然是:
總成本 = 總 input tokens / 1,000,000 × 5
+ 總 output tokens / 1,000,000 × 25例:10,000 筆任務,每筆 2k input + 500 output。
總 input = 10,000 × 2,000 = 20,000,000 tokens
總 output = 10,000 × 500 = 5,000,000 tokens
input 成本 = 20 × 5 = 100 美元
output 成本 = 5 × 25 = 125 美元
合計 = 225 美元這個 $225 是不計入任何 batch discount 的保守同步價估算。若後續確認有適用的批次價格,再把單價替換成實際價格即可。
另外,如果不是直連 Anthropic Claude API,而是透過雲端平台或第三方模型路由商,實際帳單可能不同。第三方資料 CloudPrice 列出 Opus 4.7 在 Anthropic / global 類型為 $5 input / $25 output per MTok,也列出部分 AWS Bedrock 區域型代碼為 $5.50 input / $27.50 output per MTok;這類資料適合作為檢查提醒,正式採購仍應以你的平台帳務頁、合約與官方文件為準。[12]
實務 buffer:別只看理論值
如果還沒有真實 token 分布,純用理論值通常偏樂觀。至少要把三件事納入安全墊:
- Tokenizer 遷移風險:Opus 4.7 的新 tokenizer 可能讓固定文字 token 數最多增加 35%。[
2]
- Cache hit rate 不確定性:快取只有在上下文真的被重複使用、且仍在有效期內時,才會顯著降低成本。[
2]
- 實際使用行為:使用者可能要求更長輸出、反覆重試、上傳更大文件,或讓對話歷史超出原本假設。
可用的非官方預算安全墊如下:
| 階段 | 建議預算係數 |
|---|---|
| PoC / 試跑 | 理論值 × 1.2 到 1.5 |
| 正式上線、流量穩定 | 理論值 × 1.35 到 1.6 |
| 從舊模型遷移到 Opus 4.7,且大量依賴長上下文 | 理論值 × 1.5 到 1.8 |
這些係數不是 Anthropic 官方報價,而是預算管理上的保守抓法;正式上線後,應用實際 token 日誌、cache hit rate 與發票資料回填模型。
快速預算模板
沒有 cache 時,可以先用月成本公式:
月成本 ≈ 每日請求數 × 30
× (平均 input tokens / 1,000,000 × 5
+ 平均 output tokens / 1,000,000 × 25)有 cache 時,務必拆開算:
月成本 ≈ 一般 input 成本
+ cache write 成本
+ cache hit / refresh 成本
+ output 成本實作前至少填入這些變數:
| 變數 | 例子 |
|---|---|
| 每次平均 input tokens | 300,000 |
| 每次平均 output tokens | 8,000 |
| 每日請求數 | 1,000 |
| Cache write tokens | 每份文件 300,000 |
| Cache hit tokens | 每次命中 300,000 |
| Cache hit rate | 60% |
| Tokenizer 遷移 buffer | 最高先抓 × 1.35 |
| 營運 buffer | 例如 × 1.35 到 1.6 |
最後怎麼抓預算
一次性長文件分析,直接用 $5/MTok input + $25/MTok output 估算即可。[2]
同一份長文件反覆問答,或長對話每輪都帶大量歷史,應先試算 prompt caching;在 300k 文件、2k 問題、2k 輸出的例子中,5 分鐘 cache 第二輪命中約 $0.21,而每次重送全文約 $1.56。[2]
批次任務先用同步 API 公開價抓保守預算,等你確認實際 batch pricing、雲端平台價格或合約單價後再下修。若是從舊模型遷移到 Opus 4.7,先把 input token 預估乘上最高 1.35,再加上營運 buffer,會比只看標價更接近真實帳單。[2]




