如果一份文件只分析一次,例如上載一份報告叫模型摘要,之後冇追問,預算可以好簡單:文件、system prompt 同問題都算 input tokens;模型答案算 output tokens。以下全部用 Claude API 公開價試算。
| 情境 | Input | Output | 試算成本 |
|---|---|---|---|
| 較短嘅長文件摘要 | 100k | 5k | 約 $0.625 |
| 中大型文件分析 | 300k | 8k | 約 $1.70 |
| 超大型文件分析 | 1M | 10k | 約 $5.25 |
以 300k input + 8k output 為例:
300,000 / 1,000,000 × 5 = 1.50
8,000 / 1,000,000 × 25 = 0.20
合計 = 1.70 美元不過,如果你係由舊模型遷移去 Opus 4.7,唔好照抄舊 token 估算。Anthropic 定價文件註明 Opus 4.7 使用新 tokenizer,同一段固定文字嘅 token 數最多可能增加 35%。
例如原本估 300k input,保守啲可以先當 405k input;再配 8k output:
405,000 / 1,000,000 × 5 = 2.025
8,000 / 1,000,000 × 25 = 0.20
合計 ≈ 2.23 美元假設:
| 做法 | 成本組成 | 試算成本 |
|---|---|---|
| 第一次:建立 5 分鐘 cache | 300k × $6.25/MTok + 2k × $5/MTok + 2k × $25/MTok | 約 $1.935 |
| 之後:cache hit | 300k × $0.50/MTok + 2k × $5/MTok + 2k × $25/MTok | 約 $0.21 |
| 唔用 cache:每次重送全文 | 302k × $5/MTok + 2k × $25/MTok | 約 $1.56 |
呢個例子入面,第一輪建立 cache 其實比唔用 cache 貴少少;但只要同一份文件去到第二輪,總成本已經低過每次重送全文:
唔用 cache,兩輪:約 1.56 × 2 = 3.12 美元
用 5 分鐘 cache,兩輪:約 1.935 + 0.21 = 2.145 美元所以長文件問答真正要睇嘅係 cache hit rate:用戶會唔會真係反覆問同一份文件?追問係咪喺 cache 有效期內?每一輪會唔會又帶入大量未快取嘅新內容?呢幾樣,往往比單次 output 長短更影響帳單。
假設:
| 做法 | 試算成本 |
|---|---|
| 唔用 cache:每輪帶 200k 歷史 + 1k 新訊息 + 2k 輸出 | 約 $1.055 / 輪 |
| 先將 200k 歷史寫入 5 分鐘 cache:第一次嗰輪 | 約 $1.305 |
| 5 分鐘 cache hit 後:每輪 | 約 $0.155 / 輪 |
| 先將 200k 歷史寫入 1 小時 cache:第一次嗰輪 | 約 $2.055 |
| 1 小時 cache hit 後:每輪 | 約 $0.155 / 輪 |
揀 5 分鐘定 1 小時 cache,唔應該只睇寫入單價,而要睇用戶行為:
批量任務常見於離線分析、資料標註、批量摘要或者大量分類。不過,喺你未確認自己帳戶、合約或者平台端點實際適用嘅 batch pricing 前,正式預算唔應該先寫入未核實折扣。保守做法係先按同步 API 公開價估,再用已確認嘅批量價格下修。
同步公開價公式仍然係:
總成本 = 總 input tokens / 1,000,000 × 5
+ 總 output tokens / 1,000,000 × 25例:10,000 筆任務,每筆 2k input + 500 output。
總 input = 10,000 × 2,000 = 20,000,000 tokens
總 output = 10,000 × 500 = 5,000,000 tokens
input 成本 = 20 × 5 = 100 美元
output 成本 = 5 × 25 = 125 美元
合計 = 225 美元即係話,$225 係未計任何 batch discount 嘅保守同步價估算。之後如果確認有適用批量價,只要將單價換成實際價格再計一次。
另外,如果你唔係直連 Anthropic Claude API,而係經雲端平台或者第三方模型路由商,實際帳單可能唔同。第三方資料 CloudPrice 列出 Opus 4.7 喺 Anthropic / global 類型為 $5 input / $25 output per MTok,亦列出部分 AWS Bedrock 區域型代碼為 $5.50 input / $27.50 output per MTok;呢類資料適合做採購前提示,正式落單仍應以你自己平台帳務頁、合約同官方文件為準。
如果你未有真實 token 分布,只用理論值通常會偏樂觀。至少要加三個安全墊:
可用嘅非官方預算安全墊如下:
| 階段 | 建議預算係數 |
|---|---|
| PoC / 試跑 | 理論值 × 1.2 到 1.5 |
| 正式上線、流量穩定 | 理論值 × 1.35 到 1.6 |
| 從舊模型遷移到 Opus 4.7,而且大量依賴長上下文 | 理論值 × 1.5 到 1.8 |
以上係預算管理上嘅保守抓法,唔係 Anthropic 官方報價。正式上線後,應該用實際 token 日誌、cache hit rate 同發票資料回填模型,唔好長期靠估。
冇 cache 時,可以先用月成本公式:
月成本 ≈ 每日請求數 × 30
× (平均 input tokens / 1,000,000 × 5
+ 平均 output tokens / 1,000,000 × 25)有 cache 時,務必要拆開計:
月成本 ≈ 一般 input 成本
+ cache write 成本
+ cache hit / refresh 成本
+ output 成本實作前,最少填入以下變數:
| 變數 | 例子 |
|---|---|
| 每次平均 input tokens | 300,000 |
| 每次平均 output tokens | 8,000 |
| 每日請求數 | 1,000 |
| Cache write tokens | 每份文件 300,000 |
| Cache hit tokens | 每次命中 300,000 |
| Cache hit rate | 60% |
| Tokenizer 遷移 buffer | 最高先抓 × 1.35 |
| 營運 buffer | 例如 × 1.35 到 1.6 |
同一份長文件反覆問答,或者長對話每輪都帶大量歷史,就要先試算 prompt caching。在 300k 文件、2k 問題、2k 輸出嘅例子中,5 分鐘 cache 第二輪命中約 $0.21;如果每次重送全文,則約 $1.56。
批量任務就先用同步 API 公開價抓保守預算,等你確認實際 batch pricing、雲端平台價或者合約單價後再下修。若然係由舊模型遷移到 Opus 4.7,建議先將 input token 預估乘上最高 1.35,再加營運 buffer;咁會比只睇標價更接近真實帳單。
Comments
0 comments