| Claude Opus 4.7 | Anthropic | $5.00 | $0.50 | $25.00 | 1M tokens | 128K tokens |
| GPT-5.5 | OpenAI | $5.00 | $0.50 | $30.00 | Nível de contexto curto; sobretaxa para contexto longo acima de ~272K tokens | 128K tokens |
| GPT-5.5 Pro | OpenAI | $30.00 | — | $180.00 | Nível de contexto curto; sobretaxa para contexto longo acima de ~272K tokens | 128K tokens |
| Gemini 3.5 Flash | $1.50 | $0.15 | $9.00 | 1.048.576 tokens | 65.536 tokens |
| Grok 4.3 | xAI | $1.25 | $0.20 | $2.50 | 1M tokens | — |
| DeepSeek V4 Flash | DeepSeek | $0.14 | $0.028 | $0.28 | 1M tokens | 384K tokens |
| DeepSeek V4 Pro | DeepSeek | $1.74 | $0.145 | $3.48 | 1M tokens | 384K tokens |
As taxas padrão do Claude Opus 4.8 e 4.7 são as mesmas do Opus 4.6, repetindo o padrão da Anthropic desde a geração Opus 4.5 . A grande diferença é que o Opus 4.7 introduziu um novo tokenizador, que pode gerar até 35% mais tokens para o mesmo texto, em comparação com o Opus 4.6. Na prática, isso significa que prompts idênticos podem sair mais caros, mesmo com o preço por token mantido
.
Já a precificação do GPT-5.5 dobra para entrada e aumenta 1,5x para saída quando o prompt ultrapassa os 272 mil tokens. É uma estrutura escalonada que pode pegar o usuário de surpresa se ele não estiver monitorando o tamanho do prompt . O Grok 4.3 segue uma lógica semelhante: a taxa padrão vale para requisições de até 200 mil tokens, e depois disso os preços dobram
.
O grande destaque em economia é o DeepSeek V4 Flash. Custando apenas US$ 0,14 para entrada e US$ 0,28 para saída por milhão de tokens, ele é cerca de 97% mais barato que o GPT-5.5 em tokens de saída e quase 70% mais barato que o Grok 4.3 em tokens de entrada . É a escolha número um para cargas de trabalho intensivas e agentes autônomos que priorizam o custo.
O cache de prompt é a estratégia mais eficaz para reduzir custos em todas as plataformas. Sempre que suas requisições compartilham um prefixo comum — como instruções de sistema ou longos históricos de conversa — os tokens de entrada que estão em cache são cobrados por uma fração do preço.
Anthropic, OpenAI e Google convergem para um desconto de cerca de 90% nos tokens de entrada que atingem o cache. A DeepSeek lista sua taxa de cache hit do V4 Flash em US$ 0,028, uma redução de 80% sobre o preço de cache miss, de US$ 0,14 . A taxa de cache do Grok 4.3 foi lançada a US$ 0,20 por milhão de tokens para solicitações abaixo de 200 mil tokens
. Para cargas de trabalho com prompts repetitivos, esses descontos podem facilmente cortar a conta mensal da API pela metade.
As APIs de processamento em lote (batch) são outra poderosa alavanca de custo, geralmente cortando pela metade os preços por token em troca de um tempo de resposta maior.
O tamanho da janela de contexto e a saída máxima de tokens influenciam tanto a capacidade quanto o custo. Uma janela maior permite mais tokens de entrada por requisição, o que se multiplica diretamente na fatura.
Comments
0 comments