| Claude Opus 4.7 | Anthropic | $5.00 | $0.50 | $25.00 | 1M tokens | 128K tokens |
| GPT-5.5 | OpenAI | $5.00 | $0.50 | $30.00 | Tarifa de contexto corto; con recargo por contexto largo a partir de ~272K tokens | 128K tokens |
| GPT-5.5 Pro | OpenAI | $30.00 | — | $180.00 | Tarifa de contexto corto; con recargo por contexto largo a partir de ~272K tokens | 128K tokens |
| Gemini 3.5 Flash | $1.50 | $0.15 | $9.00 | 1,048,576 tokens | 65,536 tokens |
| Grok 4.3 | xAI | $1.25 | $0.20 | $2.50 | 1M tokens | — |
| DeepSeek V4 Flash | DeepSeek | $0.14 | $0.028 | $0.28 | 1M tokens | 384K tokens |
| DeepSeek V4 Pro | DeepSeek | $1.74 | $0.145 | $3.48 | 1M tokens | 384K tokens |
Claude Opus 4.8 y 4.7 mantienen las mismas tarifas estándar que Opus 4.6, continuando con el patrón de Anthropic desde la generación Opus 4.5 . Sin embargo, Opus 4.7 introdujo un nuevo tokenizador que puede generar hasta un 35 % más de tokens para el mismo texto de entrada en comparación con Opus 4.6, lo que efectivamente eleva el coste de los mismos prompts aunque el precio por token no haya cambiado
. Por su parte, el precio de GPT-5.5 se duplica para entrada y se multiplica por 1.5 para salida una vez que una solicitud supera aproximadamente los 272K tokens; una estructura de precios escalonada que puede sorprender a los usuarios que no monitorizan la longitud de sus prompts
. Grok 4.3 aplica un enfoque similar: las tarifas estándar se mantienen para solicitudes de hasta 200K tokens, después de lo cual los precios se duplican
.
DeepSeek V4 Flash se distingue como el modelo menos costoso de este grupo por un margen muy amplio. Con precios de $0.14 de entrada y $0.28 de salida por millón de tokens, es aproximadamente un 97 % más barato que GPT-5.5 en salida y casi un 70 % más barato que Grok 4.3 en entrada, lo que lo convierte en una opción líder para cargas de trabajo agénticas de alto volumen .
El almacenamiento en caché de prompts es la forma más efectiva de reducir los costes por solicitud en todos los proveedores. Cuando los prompts comparten un prefijo común —como instrucciones del sistema o largos historiales de conversación—, los tokens de entrada almacenados en caché se facturan a una fracción de la tarifa estándar.
Anthropic, OpenAI y Google convergen en un descuento aproximado del 90 % para la entrada en caché. DeepSeek lista su precio de acierto de caché para V4 Flash en $0.028, una reducción del 80 % respecto al precio de fallo de caché de $0.14 . La tarifa de caché de Grok 4.3 se introdujo a $0.20 por millón de tokens para solicitudes de menos de 200K tokens
. Para cargas de trabajo con prompts repetitivos, estos niveles de caché pueden reducir fácilmente las facturas mensuales de API a la mitad o más.
Las API por lotes ofrecen otra palanca de ahorro importante, generalmente reduciendo a la mitad los precios estándar por token a cambio de tiempos de respuesta más lentos.
El tamaño de la ventana de contexto y los tokens máximos de salida influyen tanto en la capacidad como en el coste. Una ventana de contexto más grande implica más tokens de entrada por solicitud, lo que multiplica directamente la factura.
Comments
0 comments