| 284 Md de paramètres au total / 13 Md actifs |
| Fenêtre de contexte | Jusqu’à 1M de tokens | Jusqu’à 1M de tokens |
| Positionnement produit | Le plus grand modèle de la famille V4 | Conçu pour des charges plus rapides et plus efficaces |
| Nom de modèle API | deepseek-v4-pro | deepseek-v4-flash |
La page modèles et tarifs de DeepSeek indique aussi, pour les deux modèles, une longueur maximale de sortie de 384K et la prise en charge de JSON Output ainsi que des Tool Calls. Autrement dit, l’effort d’ingénierie ne consiste pas seulement à agrandir le nombre de paramètres ou la fenêtre de contexte : DeepSeek cherche à proposer deux profils réellement appelables, l’un orienté capacité maximale, l’autre efficacité.
API Yi et HyperAI décrivent V4-Pro et V4-Flash comme des modèles Mixture-of-Experts, ou MoE. Dans ce type d’architecture, le nombre total de paramètres représente plutôt la taille du vivier d’experts, tandis que les paramètres actifs correspondent au sous-ensemble réellement mobilisé lors d’une inférence. Cela explique pourquoi les fiches de V4 insistent à la fois sur les paramètres totaux et sur les paramètres actifs.
L’intérêt est clair : découpler en partie la capacité globale du modèle et le coût de calcul par requête. La contrepartie l’est tout autant : côté serveur, il faut gérer le routage des experts, le parallélisme entre experts, les communications et l’équilibrage de charge. Après le lancement, les équipes SGLang et Miles ont annoncé une prise en charge de V4 pour l’inférence et l’entraînement RL, avec des adaptations à l’hybrid sparse-attention, aux mHC et aux poids experts en FP4, signe que la difficulté dépasse largement le seul modèle et touche toute la pile de serving et de training.
Les documents développeurs de NVIDIA présentent V4-Pro et V4-Flash comme des modèles destinés à une inférence efficace avec contexte d’un million de tokens, notamment pour le code sur longue portée, l’analyse documentaire, la recherche d’information et les workflows d’agents IA. La documentation API de DeepSeek liste également une longueur de contexte de 1M pour les deux modèles.
Pour un utilisateur, l’avantage immédiat est de réduire le découpage des documents, les recollages manuels et certains oublis liés à la recherche augmentée. Pour l’infrastructure, en revanche, cette fenêtre amplifie la pression sur le calcul d’attention, les caches de contexte, la mémoire vidéo, la bande passante et l’ordonnancement du débit. C’est pourquoi V4 ne devrait pas être évalué uniquement sur le chiffre 1M : il faut le tester sur de vrais dépôts de code, de longs dossiers documentaires, des pipelines RAG et des chaînes d’agents, en observant la latence, le coût, la stabilité des références lointaines et la qualité des appels d’outils.
Sur l’efficacité du long contexte, les sources publiques n’emploient pas toujours les mêmes termes. API Yi attribue le contexte 1M de V4 à une architecture Hybrid Attention associée à de la DSA sparse attention. HyperAI parle d’une hybrid attention combinant Compressed Sparse Attention, ou CSA, et Heavily Compressed Attention, ou HCA, tout en mentionnant les mHC.
SGLang et Miles évoquent de leur côté des adaptations à l’hybrid sparse-attention, aux mHC et aux poids experts FP4.
La lecture la plus prudente est donc la suivante : l’écosystème V4 pointe bien vers une combinaison d’attention clairsemée, compressée ou hybride, complétée par des optimisations de pile serveur. En revanche, les noms exacts des modules, leurs détails d’implémentation et l’ampleur réelle des gains ne devraient pas être tenus pour acquis à partir de résumés secondaires. Pour trancher, il vaut mieux revenir à la Model Card et au rapport technique listés par le centre de transparence de DeepSeek.
Le journal des mises à jour de DeepSeek indique que l’API prend désormais en charge V4-Pro et V4-Flash via l’interface OpenAI ChatCompletions et via l’interface Anthropic. Pour appeler les nouveaux modèles, le base_url reste inchangé : il faut modifier le paramètre model en deepseek-v4-pro ou deepseek-v4-flash. La documentation de premier appel indique les URL de base suivantes :
https://api.deepseek.com au format OpenAI et https://api.deepseek.com/anthropic au format Anthropic.
model: deepseek-v4-pro
model: deepseek-v4-flash
OpenAI format base_url: https://api.deepseek.com
Anthropic format base_url: https://api.deepseek.com/anthropicLes anciens noms de modèles ont aussi un calendrier précis : deepseek-chat et deepseek-reasoner doivent être abandonnés le 24 juillet 2026. Pendant la période de transition, ils pointent respectivement vers le mode non-thinking et le mode thinking de deepseek-v4-flash. Pour une application déjà en production, les premières tâches sont donc simples à énoncer : remplacer les noms de modèles, choisir entre Pro et Flash, puis refaire des tests de régression sur le long contexte, les Tool Calls, la longueur de sortie et les coûts.
Première prudence : les écarts de performance. La page chinoise officielle affirme que V4-Pro atteint un niveau de tête, en Chine et dans l’open source, sur les agents, la connaissance du monde et le raisonnement ; API Yi cite aussi des scores de benchmark comme SWE-Verified. Ces éléments documentent les revendications de DeepSeek et de son écosystème, mais les performances réelles dépendront des prompts, des contraintes de coût et des tâches métier. Elles méritent donc des tests indépendants.
Deuxième prudence : les mécanismes internes. Hybrid Attention, DSA, CSA, HCA, mHC et poids experts FP4 apparaissent dans différentes sources publiques, mais les niveaux de source et les noms ne sont pas parfaitement alignés. En dehors du rapport technique officiel, il serait excessif de traiter chaque terme comme un fait d’implémentation entièrement confirmé.
Troisième prudence : une fenêtre 1M ne garantit pas que toutes les requêtes pleines fenêtres seront rapides et bon marché. Les sources officielles et l’écosystème confirment la direction technique et la disponibilité API de V4 ; l’expérience réelle dépendra de la longueur des documents, des hits de cache, de la concurrence, des chaînes d’outils et de vos critères d’évaluation.
La part vraiment impressionnante de DeepSeek V4 tient à la combinaison : V4-Pro à 1,6 T de paramètres dont 49 Md actifs, V4-Flash à 284 Md dont 13 Md actifs, un contexte jusqu’à 1M de tokens et une API compatible OpenAI/Anthropic réunis dans une même gamme exploitable.
Pour les développeurs, la bonne réponse n’est pas de reprendre les slogans de lancement. Elle consiste à tester V4 de bout en bout avec ses propres longs documents, dépôts de code, workflows RAG et agents, puis à finaliser la migration des anciens noms de modèles avant le 24 juillet 2026.
Comments
0 comments