模型升級唔只係比較每百萬 token 價格。Tokenizer 係文字進入模型前的切分規則;如果規則改變,同一段 prompt 可能變成不同 token 數,而 token 數正是多個 LLM API pricing 文件中的成本單位之一。[20][
12][
32][
2]
Claude Opus 4.7 是一個清楚例子:Anthropic 文件寫明,新 tokenizer 處理文字時,可能比之前模型使用約 1x 至 1.35x tokens,即最高約多 35%,而且增幅會因內容而異;同一輸入用 /v1/messages/count_tokens 比較 Opus 4.7 與 Opus 4.6,會得到不同 token 數。[34]
結論:有機會變貴,但不是所有 prompt 都加 35%
最準確的講法是:新 tokenizer 可以令同一份 prompt 的 input tokens 增加,從而在 input-token 單價不變時推高 input 成本。不過,Anthropic 講的是約 1x–1.35x,而且明確說會按內容變動,所以不能把它解讀成每個 prompt 一律多 35% tokens。[34]
亦不能把 token 增幅直接等同總帳單增幅。Anthropic pricing 文件把 Base Input TokensCache WritesCache HitsOutput Tokens12][
32][
2] 換言之,input token 多咗會影響 input 部分,但總成本還要看 output tokens、cache 命中或寫入、模型價目,以及實際 request 結構。[
12]
點解同一段文字會變 token 數?
Token 不是字數。OpenAI 的 tiktoken 教程示範,要用指定 encoding 先可以計算文字會被拆成幾多 tokens;Gemini 文件亦寫明,Gemini API 的 input 和 output 都會被 tokenized,包括文字與圖像等輸入。[20][
1]
所以,只用字數、字符數或估算比例去推成本,最多只能做粗略預算。真正應該比較的是目標模型實際回傳的 token count;Claude Opus 4.7 與 Opus 4.6 在 count_tokens 上會回傳不同數字,正正說明 tokenizer 改動可以改變同一內容的計數結果。[34]
35% 應該點樣理解?
| 常見講法 | 較準確解讀 |
|---|---|
| Opus 4.7 令 prompt 一律貴 35% | 過度簡化。官方範圍是約 1x–1.35x tokens,而且視內容而定。[ |
| 同一段文字可能被計成更多 tokens | 準確。Anthropic 明確寫明 Opus 4.7 的新 tokenizer 可能使用更多 tokens,並會與 Opus 4.6 的 token count 不同。[ |
| Tokenizer 改動只影響 context limit,不影響成本 | 不完整。API pricing 會按 input、output、cache 等 token 用量欄位收費,token count 變動可以影響成本計算。[ |
| 最好用官方 counter 實測 | 準確。OpenAI 有 input token counting 與 tiktoken 指引,Gemini 有 count_tokens 文件,Anthropic 文件亦指向 /v1/messages/count_tokens。[ |
成本可以點樣估?
如果只看 input tokens,而且 input-token 單價不變,可以用一條簡化公式:
額外 input 成本 ≈(新 tokenizer input tokens − 舊 tokenizer input tokens)× input-token 單價
但這條式只估 input 部分。實際帳單還可能包含 output tokens、cache writes、cache hits 或其他產品收費欄位;Anthropic pricing 文件已把這些欄位分開,OpenAI 與 Gemini 亦有獨立 pricing 文件可供對照。[12][
32][
2]
升級模型前的實測流程
1. 抽完整 payload,不好只抽 user message
產品實際送入模型的內容,可能包括 system 指示、長 context、工具資料、檔案、圖像或其他輸入。Gemini 文件寫明所有 input 和 output 都會被 tokenized,OpenAI 的 token counting guide 亦示範了包含文字與圖片的 input token counting。[1][
33]
2. 用目標模型的官方 token counter
OpenAI 提供 responses.input_tokens.count 文件,亦有 tiktoken 計算指引;Gemini 文件提供 count_tokens;Anthropic 在 Opus 4.7 文件中提到 /v1/messages/count_tokens,並指 Opus 4.7 會與 Opus 4.6 回傳不同 token 數。[33][
20][
1][
34]
3. 按內容類型抽樣
不要只測一條短 prompt。Anthropic 對 Opus 4.7 的描述是 token 增幅會因內容而異,所以應該抽高流量、長 context、最貴或最常見的 payload 類型來比較。[34]
4. 把 token delta 套入官方 pricing
先比較新舊 input token count,再用對應模型的官方 pricing 換算 input 成本差額;之後再把 output、cache 等欄位加回總成本模型。Anthropic、OpenAI、Gemini 都有官方 pricing 文件可供核對。[12][
32][
2]
5. 用結果決定是否需要優化
如果 token delta 很小,可能只需要更新預算和監控;如果高流量 payload 明顯變貴,就應該考慮壓縮 prompt、縮短 context、改善 cache 策略,或重新估算單次請求成本。重點不是見到 35% 就恐慌,而是用官方 counter 和官方 pricing 將影響量化。[12][
34]
底線
新 tokenizer 的確可以令同一份 prompt 使用更多 tokens。Claude Opus 4.7 的官方文件已確認,處理文字時可能比之前模型使用約 1x–1.35x tokens,最高約多 35%,但增幅會因內容而異。[34]
真正要問的不是 headline 入面的 35%,而是你的實際 payload 在新模型下多了幾多 input tokens、output 行為有冇改變、cache 欄位點收費,以及供應商 pricing 是否一樣適用。升級前先跑官方 token counter,再套官方 pricing,先係判斷 prompt 會否變貴的可靠方法。[33][
1][
34][
12][
32][
2]




