| $0.50 |
| $25.00 |
| 1M tokens |
| 128K tokens |
| GPT-5.5 | OpenAI | $5.00 | $0.50 | $30.00 | 短上下文;输入超 272K tokens 后触发长上下文溢价 | 128K tokens |
| GPT-5.5 Pro | OpenAI | $30.00 | 未官方公布 | $180.00 | 短上下文;输入超 272K tokens 后触发长上下文溢价 | 128K tokens |
| Gemini 3.5 Flash | $1.50 | $0.15 | $9.00 | 1,048,576 tokens | 65,536 tokens |
| Grok 4.3 | xAI | $1.25 | $0.20 | $2.50 | 1M tokens | 未公布 |
| DeepSeek V4 Flash | DeepSeek | $0.14 | $0.028 | $0.28 | 1M tokens | 384K tokens |
| DeepSeek V4 Pro | DeepSeek | $1.74 | $0.145 | $3.48 | 1M tokens | 384K tokens |
Claude Opus 4.8 和 4.7 的标准费率与 Opus 4.6 保持一致,延续了 Anthropic 自 Opus 4.5 代以来的定价策略 。不过,Opus 4.7 引入了一个新的 tokenizer,这会导致相同的输入文本生成的 token 数量比 Opus 4.6 最多高出 35%——虽然单价没变,但实际成本却实实在在地上去了
。
GPT-5.5 的定价同样暗藏玄机:一旦单次请求的输入长度超过约 272K tokens,输入价格将翻倍,输出价格变为原来的 1.5 倍。这种阶梯定价很容易让没有留意提示词长度的开发者措手不及 。Grok 4.3 也采取了类似的策略:请求总 token 数在 200K 以内时享受标准费率,超出后所有价格翻倍
。
DeepSeek V4 Flash 则是这场价格战中的“价格屠夫”。每百万 token 输入仅需 $0.14、输出 $0.28,这让它的输出成本比 GPT-5.5 低了大约 97%,输入成本也比 Grok 4.3 便宜了近 70%,非常适合高吞吐量的智能体工作负载 。
提示词缓存是目前所有平台上最能立竿见影降低单次请求成本的手段。如果你的请求中有大量重复的前缀——比如系统指令、长对话历史等——这些被缓存命中的输入 token 将按极低的费率计费。
Anthropic、OpenAI 和 Google 三家在缓存输入上不约而同地给出了约 90% 的折扣。DeepSeek 对 V4 Flash 的缓存命中费率设在了 $0.028,相当于标准输入的 80% 折扣 。Grok 4.3 则为 200K token 以内的请求提供了 $0.20 的缓存读取价格
。对于提示词高度重复的工作负载来说,合理利用缓存能够轻松砍掉一半以上的月度 API 账单。
批处理 API 是另一个大幅削减开支的利器,核心逻辑是用更长的响应时间换取标准价格约 50% 的折扣。
上下文窗口的大小和最大输出 token 数不仅决定了模型的能力边界,也直接影响你的账单。更大的上下文窗口意味着单次请求可能塞进更多输入 token,这直接放大了成本。
Comments
0 comments