| $25.00 |
| 100 萬代幣 |
| 12.8 萬代幣 |
| GPT-5.5 | OpenAI | $5.00 | $0.50 | $30.00 | 短上下文層級;超過約 27.2 萬代幣將啟動長上下文附加費 | 12.8 萬代幣 |
| GPT-5.5 Pro | OpenAI | $30.00 | — | $180.00 | 短上下文層級;超過約 27.2 萬代幣將啟動長上下文附加費 | 12.8 萬代幣 |
| Gemini 3.5 Flash | $1.50 | $0.15 | $9.00 | 1,048,576 代幣 | 65,536 代幣 |
| Grok 4.3 | xAI | $1.25 | $0.20 | $2.50 | 100 萬代幣 | — |
| DeepSeek V4 Flash | DeepSeek | $0.14 | $0.028 | $0.28 | 100 萬代幣 | 38.4 萬代幣 |
| DeepSeek V4 Pro | DeepSeek | $1.74 | $0.145 | $3.48 | 100 萬代幣 | 38.4 萬代幣 |
Claude Opus 4.8 和 4.7 的標準費率與 Opus 4.6 相同,延續了 Anthropic 自 Opus 4.5 世代以來的定價策略 。然而,Opus 4.7 導入了新分詞器,相同的輸入文字可能比 Opus 4.6 多產生高達 35% 的代幣量。這意味著,即使每代幣價格不變,完全相同的提示其實際成本卻悄悄上漲了
。
GPT-5.5 則採用分層定價:一旦請求的總代幣數超過約 27.2 萬,輸入價格將翻倍,輸出價格則提高 1.5 倍。這種結構可能讓未仔細監控提示長度的用戶措手不及 。Grok 4.3 也採用類似策略:請求在 20 萬代幣內適用標準費率,超出的部分價格將翻倍
。
DeepSeek V4 Flash 的價格在本組比較中堪稱「破壞式存在」。每百萬輸入代幣 0.14 美元、輸出代幣 0.28 美元,輸出成本比 GPT-5.5 便宜約 97%,輸入成本比 Grok 4.3 還低近 70%,無疑是處理大量代理工作流(agentic workloads)的首選 。
在所有供應商中,提示快取(Prompt Caching)是降低每次請求成本最直接有效的方式。當你的提示中有重複出現的前綴內容,例如系統指令或長對話歷史,快取命中的輸入代幣只需支付標準價格的一小部分。
Anthropic、OpenAI 和 Google 在快取輸入方面都給出約 90% 的折扣。DeepSeek V4 Flash 的快取命中費率為每百萬代幣 0.028 美元,相較標準輸入 0.14 美元是八折優惠;V4 Pro 的快取折扣更高達約 92% 。Grok 4.3 的快取費率則為每百萬代幣 0.20 美元,適用於 20 萬代幣內的請求
。對於有大量重複提示的工作負載,妥善配置快取機制每月省下超過一半的 API 費用並不困難。
批次 API(Batch API)是另一個重要的成本調節手段,通常能以較慢的回應速度換取標準代幣價格近乎對折的優惠。
上下文窗口大小與最大輸出代幣不僅影響模型能處理的任務複雜度,也直接跟帳單掛鉤。愈大的上下文窗口,意味著每次請求可能攜帶愈多輸入代幣,費用自然隨之線性放大。
Comments
0 comments