如果一份文件只分析一次,沒有後續追問,預算最簡單:文件、系統提示與問題都算 input tokens;模型回答算 output tokens。以下範例皆以 Claude API 公開價試算。[2]
| 情境 | Input | Output | 試算成本 |
|---|---|---|---|
| 較短的長文件摘要 | 100k | 5k | 約 $0.625 |
| 中大型文件分析 | 300k | 8k | 約 $1.70 |
| 超大型文件分析 | 1M | 10k | 約 $5.25 |
以 300k input + 8k output 為例:
300,000 / 1,000,000 × 5 = 1.50
8,000 / 1,000,000 × 25 = 0.20
合計 = 1.70 美元遷移到 Opus 4.7 時,不建議直接沿用舊模型的 token 預估。Anthropic 定價文件註明 Opus 4.7 使用新 tokenizer,同一段固定文字的 token 數最多可能增加 35%。[2]
例如原本估 300k input,保守抓成 405k input;搭配 8k output 時:
405,000 / 1,000,000 × 5 = 2.025
8,000 / 1,000,000 × 25 = 0.20
合計 ≈ 2.23 美元長文件產品最常低估的成本,不是單次輸出,而是同一份大文件在每輪對話中反覆作為 input 計費。若文件會被多次查問,應先把 prompt caching 納入預算模型。[2]
假設:
| 做法 | 成本組成 | 試算成本 |
|---|---|---|
| 第一次:建立 5 分鐘 cache | 300k × $6.25/MTok + 2k × $5/MTok + 2k × $25/MTok | 約 $1.935 |
| 後續:cache hit | 300k × $0.50/MTok + 2k × $5/MTok + 2k × $25/MTok | 約 $0.21 |
| 不用 cache:每次重送全文 | 302k × $5/MTok + 2k × $25/MTok | 約 $1.56 |
在這個例子中,第一輪建立 cache 比不用 cache 還貴;但只要同一份文件進入第二輪請求,總成本就低於每次重送全文:
不用 cache,兩輪:約 1.56 × 2 = 3.12 美元
用 5 分鐘 cache,兩輪:約 1.935 + 0.21 = 2.145 美元因此,長文件問答的預算重點是 cache hit rate:文件是否真的會被重複問、追問是否落在 cache 有效期內,以及每輪是否仍帶入大量未快取的新內容。[2]
長對話的成本邏輯與長文件相同。若應用每輪都把大量歷史訊息送回模型,input 成本會快速累積;可重用且穩定的歷史上下文應優先評估 prompt caching。[2]
假設:
| 做法 | 試算成本 |
|---|---|
| 不用 cache:每輪帶 200k 歷史 + 1k 新訊息 + 2k 輸出 | 約 $1.055 / 輪 |
| 先把 200k 歷史寫入 5 分鐘 cache:第一次那輪 | 約 $1.305 |
| 5 分鐘 cache hit 後:每輪 | 約 $0.155 / 輪 |
| 先把 200k 歷史寫入 1 小時 cache:第一次那輪 | 約 $2.055 |
| 1 小時 cache hit 後:每輪 | 約 $0.155 / 輪 |
選 5 分鐘或 1 小時 cache,不應只看寫入單價,而要看使用者行為:
批次任務常見於離線分析、資料標註、批量摘要或大量分類。不過在尚未確認你的帳戶、合約或平台端點適用的 batch pricing 前,正式預算不應先寫入未核實折扣。保守做法是先按同步 API 公開價估算,再用實際確認的批次價格下修。[2]
同步公開價公式仍然是:
總成本 = 總 input tokens / 1,000,000 × 5
+ 總 output tokens / 1,000,000 × 25例:10,000 筆任務,每筆 2k input + 500 output。
總 input = 10,000 × 2,000 = 20,000,000 tokens
總 output = 10,000 × 500 = 5,000,000 tokens
input 成本 = 20 × 5 = 100 美元
output 成本 = 5 × 25 = 125 美元
合計 = 225 美元這個 $225 是不計入任何 batch discount 的保守同步價估算。若後續確認有適用的批次價格,再把單價替換成實際價格即可。
另外,如果不是直連 Anthropic Claude API,而是透過雲端平台或第三方模型路由商,實際帳單可能不同。第三方資料 CloudPrice 列出 Opus 4.7 在 Anthropic / global 類型為 $5 input / $25 output per MTok,也列出部分 AWS Bedrock 區域型代碼為 $5.50 input / $27.50 output per MTok;這類資料適合作為檢查提醒,正式採購仍應以你的平台帳務頁、合約與官方文件為準。[12]
如果還沒有真實 token 分布,純用理論值通常偏樂觀。至少要把三件事納入安全墊:
可用的非官方預算安全墊如下:
| 階段 | 建議預算係數 |
|---|---|
| PoC / 試跑 | 理論值 × 1.2 到 1.5 |
| 正式上線、流量穩定 | 理論值 × 1.35 到 1.6 |
| 從舊模型遷移到 Opus 4.7,且大量依賴長上下文 | 理論值 × 1.5 到 1.8 |
這些係數不是 Anthropic 官方報價,而是預算管理上的保守抓法;正式上線後,應用實際 token 日誌、cache hit rate 與發票資料回填模型。
沒有 cache 時,可以先用月成本公式:
月成本 ≈ 每日請求數 × 30
× (平均 input tokens / 1,000,000 × 5
+ 平均 output tokens / 1,000,000 × 25)有 cache 時,務必拆開算:
月成本 ≈ 一般 input 成本
+ cache write 成本
+ cache hit / refresh 成本
+ output 成本實作前至少填入這些變數:
| 變數 | 例子 |
|---|---|
| 每次平均 input tokens | 300,000 |
| 每次平均 output tokens | 8,000 |
| 每日請求數 | 1,000 |
| Cache write tokens | 每份文件 300,000 |
| Cache hit tokens | 每次命中 300,000 |
| Cache hit rate | 60% |
| Tokenizer 遷移 buffer | 最高先抓 × 1.35 |
| 營運 buffer | 例如 × 1.35 到 1.6 |
一次性長文件分析,直接用 $5/MTok input + $25/MTok output 估算即可。[2]
同一份長文件反覆問答,或長對話每輪都帶大量歷史,應先試算 prompt caching;在 300k 文件、2k 問題、2k 輸出的例子中,5 分鐘 cache 第二輪命中約 $0.21,而每次重送全文約 $1.56。[2]
批次任務先用同步 API 公開價抓保守預算,等你確認實際 batch pricing、雲端平台價格或合約單價後再下修。若是從舊模型遷移到 Opus 4.7,先把 input token 預估乘上最高 1.35,再加上營運 buffer,會比只看標價更接近真實帳單。[2]
Comments
0 comments