Cette approche modulaire permet d’optimiser chaque rack pour une fonction spécifique – entraînement, inférence, réseau ou stockage – tout en fonctionnant comme un seul et même supercalculateur logique.
La montée en cadence de la production est planétaire. Nvidia a confirmé que des centaines de partenaires de son écosystème de chaîne d’approvisionnement fabriquent les systèmes Vera Rubin, plus de 150 d’entre eux étant basés à Taïwan . La production s’étend sur plus de 350 usines dans 30 pays, un signal clair que Nvidia se prépare à des volumes massifs pour répondre à la demande des laboratoires d’IA, des fournisseurs de cloud et des hyperscalers
. Parmi les principaux constructeurs de systèmes en pleine production figurent Dell Technologies, HPE, Lenovo et Supermicro
.
Au lendemain du discours d’ouverture du GTC Taipei, CoreWeave a annoncé avoir réalisé la première mise en service et validation au monde d’un système Vera Rubin NVL72 sur son infrastructure cloud, CoreWeave Cloud . L’annonce confirme que le rack offre une efficacité d’inférence jusqu’à 10 fois supérieure par watt par rapport aux générations précédentes, ainsi qu’une réduction significative du nombre de GPU nécessaires pour les charges de travail à grande échelle
. La rapidité avec laquelle CoreWeave a rendu un système entièrement opérationnel souligne son partenariat d’ingénierie étroit avec Nvidia et le positionne comme le principal fournisseur d’accès anticipé pour la génération Rubin.
Le processeur Vera est un différenciateur clé de la plateforme. Présenté comme le premier CPU de centre de données autonome de Nvidia, il est entré en production de masse, avec des livraisons prévues pour le second semestre 2026 . Nvidia a conçu cette puce spécifiquement pour les exigences des agents d’IA autonomes, qui nécessitent un traitement à haut débit et à faible latence sur des pools de mémoire massifs. Parmi les premiers clients confirmés pour le CPU Vera figurent OpenAI, Anthropic et SpaceX
.
Le passage à la production de masse de Vera Rubin signale une transition plus large de l’industrie vers des infrastructures conçues spécifiquement pour l’IA agentique. En intégrant la technologie d’inférence à faible latence de Groq directement dans l’architecture du POD, Nvidia cible une nouvelle classe de charges de travail où la vitesse et l’efficacité de l’inférence sont primordiales .
La disponibilité générale de la plateforme pour les fournisseurs de cloud et les entreprises est prévue pour le second semestre 2026. AWS, Google Cloud, Microsoft Azure et Oracle Cloud Infrastructure sont cités comme les premiers déployeurs attendus . Sachant que la production de Vera Rubin avait déjà été annoncée au CES en janvier, puis de nouveau au GTC en mars, la mise à jour du GTC Taipei confirme que la montée en cadence se maintient et s’appuie désormais sur une chaîne logistique mondiale pleinement opérationnelle
.
Comments
0 comments