Esta abordagem modular permite que cada rack seja otimizado para uma função específica — treinamento, inferência, rede ou armazenamento — enquanto opera como um único supercomputador lógico.
A produção em massa é global. A Nvidia confirmou que centenas de parceiros do seu ecossistema estão fabricando os sistemas Vera Rubin, com mais de 150 desses parceiros localizados apenas em Taiwan . A produção se estende por mais de 350 fábricas em 30 países, um sinal claro de que a Nvidia está se preparando para um volume massivo para atender à demanda de laboratórios de IA, provedores de nuvem e hyperscalers
. Os principais fabricantes de sistemas em produção em larga escala incluem Dell Technologies, HPE, Lenovo e Supermicro
.
Apenas um dia após a palestra principal do GTC Taipei, a CoreWeave anunciou que havia concluído a primeira ativação e validação da indústria de um sistema Vera Rubin NVL72 na nuvem CoreWeave . O anúncio confirmou que o rack ofereceu um desempenho de inferência por watt até 10 vezes superior em comparação com as gerações anteriores, além de reduzir o número de GPUs necessárias para cargas de trabalho de grande escala
. A rapidez em colocar um sistema totalmente operacional de pé destaca a profunda parceria de engenharia da CoreWeave com a Nvidia e a posiciona como a principal fornecedora de acesso antecipado para a geração Rubin.
A CPU Vera é um grande diferencial para a plataforma. Descrita como a primeira CPU de data center independente da Nvidia, ela entrou em produção em massa, com embarques previstos para o segundo semestre de 2026 . A Nvidia projetou o chip especificamente para as demandas de agentes de IA autônomos, que exigem alto throughput (taxa de transferência de dados) e baixa latência em pools de memória massivos. Entre os primeiros clientes confirmados para a CPU Vera estão OpenAI, Anthropic e SpaceX
.
A mudança para a produção total do Vera Rubin sinaliza uma transição mais ampla da indústria em direção a uma infraestrutura criada sob medida para a IA agente — sistemas que não apenas geram respostas, mas podem raciocinar, planejar e executar ações em múltiplas etapas. Ao integrar a tecnologia de inferência de baixa latência da Groq diretamente na arquitetura do POD, a Nvidia está mirando uma nova classe de cargas de trabalho onde a velocidade e a eficiência da inferência são fundamentais .
A expectativa é que a plataforma esteja amplamente disponível para provedores de nuvem e grandes empresas na segunda metade de 2026, com AWS, Google Cloud, Microsoft Azure e Oracle Cloud Infrastructure todos citados como os primeiros a implementá-la . Considerando que a produção do Vera Rubin já havia sido anunciada anteriormente na CES de janeiro e novamente no GTC de março, a atualização no GTC Taipei confirma que a produção em larga escala manteve o ímpeto e agora é sustentada por uma cadeia de suprimentos global totalmente dimensionada
.
Comments
0 comments