Mais affirmer qu’il dépasse sans discussion les meilleurs modèles GPT ou Gemini serait prématuré. Les chiffres les plus spectaculaires, notamment autour de SWE-bench, incluent des éléments non vérifiés ou contestés.
La confirmation la plus robuste est simple : la documentation officielle de l’API DeepSeek affiche une entrée « DeepSeek-V4 Preview Release » au 24 avril 2026.
Ce point modifie le calendrier raconté par les articles publiés juste avant. Kili Technology écrivait encore à la mi-mars 2026 que V4 n’était pas officiellement sorti, et Tokenmix le présentait toujours comme non publié au 21 avril 2026. La lecture prudente est donc : V4 est bien entré en Preview, mais son évaluation publique en est à ses débuts, et il ne faut pas confondre Preview et version finale installée partout.
Pixverse rapporte que la Preview du 24 avril met en avant un contexte de l’ordre du million de tokens et des accès API via deepseek-v4-pro et deepseek-v4-flash. Pour un usage réel, le réflexe reste de vérifier les modalités exactes dans la documentation API officielle, car les noms, limites et disponibilités peuvent évoluer.
Le développement logiciel est le terrain sur lequel V4 est le plus attendu. NXCode présente DeepSeek V4 comme un modèle potentiellement doté d’une grande architecture MoE, d’un contexte de l’ordre du million de tokens et d’indicateurs de code très compétitifs, tout en soulignant que les affirmations de benchmark ne sont pas vérifiées.
Overchat décrit aussi des scores SWE-bench Verified supposément apparus sur X, mais signale qu’une valeur AIME 2026 figurant dans la même fuite était suspecte et que des notes de communauté l’ont signalée comme probablement fausse. En clair : V4 peut être excellent pour coder, mais une capture d’écran virale ne suffit pas à justifier une migration.
Plusieurs articles évoquent pour V4 une fenêtre de contexte autour du million de tokens. Si cette capacité se confirme dans des conditions stables, elle peut compter pour l’analyse de longs cahiers des charges, de bases de code, de contrats ou de dossiers internes.
Il faut toutefois garder un point en tête : accepter beaucoup de texte n’est pas la même chose que retrouver la bonne information et raisonner correctement dessus. SitePoint classe les terrains prometteurs de V4 du côté du code, de la génération multilingue, de la recherche dans de longs contextes et du raisonnement structuré, tout en évitant d’avancer des écarts chiffrés sans scores publiés.
L’autre promesse forte est économique. Simon Willison présente DeepSeek V4 comme un modèle presque au niveau frontier pour une fraction du prix.
Pour une équipe qui paie ses appels API au volume, c’est évidemment important. Mais le coût réel ne se résume pas au tarif par million de tokens : il faut aussi mesurer la latence, les relances, les échecs, la qualité des sorties et le coût total quand les entrées deviennent très longues.
La comparaison la plus raisonnable n’est pas « DeepSeek V4 a-t-il tout écrasé ? », mais « à quelle distance se trouve-t-il du tout premier rang ? ». Dans le résumé de Simon Willison, DeepSeek-V4-Pro-Max, avec davantage de tokens de raisonnement, ferait mieux que GPT-5.2 et Gemini-3.0-Pro sur des benchmarks de raisonnement standard, mais resterait légèrement derrière GPT-5.4 et Gemini-3.1-Pro. Cette même analyse le situe donc près de la frontière, avec un retard estimé d’environ trois à six mois sur les modèles les plus avancés.
Autrement dit : si ces observations se confirment, V4 serait un modèle de tout premier plan. Mais ce n’est pas la même chose qu’un titre incontestable de « meilleur modèle du monde ».
Le piège serait de sélectionner le score le plus flatteur et d’en faire une vérité générale. Les benchmarks de développement sont précieux, mais ils doivent être reproductibles, contextualisés et comparés à vos propres tâches.
Pour une entreprise, une équipe data ou un éditeur logiciel, le bon test n’est pas un classement générique. C’est un petit PoC, avec vos données et vos contraintes. Cinq points méritent une attention particulière :
DeepSeek V4 est un modèle à prendre au sérieux : sa Preview est officiellement signalée par DeepSeek, et les articles disponibles convergent sur des promesses fortes en code, contexte long et efficacité économique.
Mais il reste trop tôt pour le couronner. Plusieurs affirmations spectaculaires sur les benchmarks reposent sur des informations non vérifiées ou sur des fuites contestées. La conclusion la plus solide est donc : DeepSeek V4 semble très performant et probablement proche du meilleur niveau actuel, mais son rang exact doit encore être établi par des tests indépendants et, surtout, par des essais sur les cas d’usage réels.
Comments
0 comments