| Claude Opus 4.7 | Anthropic | 5,00 | 0,50 | 25,00 | 1M tokens | 128K tokens |
| GPT-5.5 | OpenAI | 5,00 | 0,50 | 30,00 | Palier court ; surcoût au-delà d'environ 272K tokens | 128K tokens |
| GPT-5.5 Pro | OpenAI | 30,00 | — | 180,00 | Palier court ; surcoût au-delà d'environ 272K tokens | 128K tokens |
| Gemini 3.5 Flash | 1,50 | 0,15 | 9,00 | 1 048 576 tokens | 65 536 tokens |
| Grok 4.3 | xAI | 1,25 | 0,20 | 2,50 | 1M tokens | — |
| DeepSeek V4 Flash | DeepSeek | 0,14 | 0,028 | 0,28 | 1M tokens | 384K tokens |
| DeepSeek V4 Pro | DeepSeek | 1,74 | 0,145 | 3,48 | 1M tokens | 384K tokens |
Claude Opus 4.8 et 4.7 conservent les tarifs standards d'Opus 4.6, une constante chez Anthropic depuis la génération 4.5 . Mais attention : Opus 4.7 utilise un nouveau « tokenizer » qui peut produire jusqu'à 35 % de tokens en plus qu'Opus 4.6 pour un même texte
. Concrètement, votre facture peut grimper alors que le prix par token affiché n'a pas bougé.
Côté OpenAI, le tarif de GPT-5.5 double en entrée et augmente de 50 % en sortie dès qu'une requête dépasse environ 272 000 tokens, une grille tarifaire à deux paliers qui peut surprendre si vous ne surveillez pas la longueur de vos prompts . xAI applique une logique similaire avec Grok 4.3 : au-delà de 200 000 tokens, les prix sont multipliés par deux
.
DeepSeek V4 Flash, avec son prix d'entrée à 0,14 $ et de sortie à 0,28 $, est de loin le moins cher de ce comparatif. À titre d'exemple, il est environ 97 % moins cher que GPT-5.5 en sortie et près de 70 % moins cher que Grok 4.3 en entrée. C'est l'option privilégiée pour les traitements massifs en mode « agentic » .
La mise en cache des prompts est le levier le plus efficace pour réduire les coûts. Si vos requêtes partagent un préfixe commun — des instructions système ou un long historique de conversation, par exemple — les tokens déjà en cache sont facturés à une fraction du prix standard.
Anthropic, OpenAI et Google convergent vers une remise d'environ 90 % sur les tokens d'entrée mis en cache. DeepSeek annonce un tarif de 0,028 $ pour son V4 Flash , soit une réduction de 80 % par rapport au prix standard. Grok 4.3 facture son cache à 0,20 $ par million de tokens pour les requêtes de moins de 200 000 tokens
. Pour des tâches répétitives, ces paliers de cache peuvent facilement diviser par deux — ou plus — votre facture mensuelle.
Les API en mode « batch » divisent généralement les prix par deux, en contrepartie d'une latence plus élevée et d'un traitement différé.
La taille de la fenêtre de contexte et le nombre maximal de tokens générés influencent à la fois les capacités du modèle et votre facture. Plus la fenêtre est grande, plus vous envoyez de tokens d'entrée par requête, ce qui fait mécaniquement grimper les coûts.
Comments
0 comments