Nvidia arrasa no MLPerf Training v6.0 com plataforma Blackwell e novos desafios de IA
Nvidia conquistou uma vitória absoluta no MLPerf Training v6.0, alcançando o menor tempo de treinamento e a melhor performance por acelerador em todos os sete benchmarks, sendo a única empresa a participar de todos os... Foram introduzidos dois novos benchmarks de pré treinamento baseados em Mistura de Especialistas...
What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell plaNVIDIA's Blackwell platform set new performance records across all MLPerf Training v6.0 benchmarks, driven by the powerful GB300 NVL72 system.
Prompt de IA
Create a landscape editorial hero image for this Studio Global article: What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell pla. Article summary: ## MLPerf Training v6.0 Key Highlights. Topic tags: general, documentation, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "Home » News » NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. # NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. NVIDIA has publish" source context "NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform - StorageReview.com" Reference image 2: visual subject "# MLPerf Inference v6.0 Results Explained: GPU Performance Rankings for AI Workloads (2026). MLPerf Inference v6.0 results dropped April 1, 2026, and
openai.com
Destaques do MLPerf Training v6.0
A Nvidia conquistou uma vitória absoluta, vencendo todos os benchmarks do MLPerf Training v6.0, incluindo o menor tempo de treinamento em larga escala e o melhor desempenho por acelerador em todas as sete cargas de trabalho. Foi a única empresa a participar de todos os testes .
Novos Desafios com Mistura de Especialistas (MoE): DeepSeek-V3 e GPT-OSS-20B
O consórcio MLCommons introduziu dois novos benchmarks de pré-treinamento baseados em arquitetura de Mistura de Especialistas (MoE): o DeepSeek-V3 (671 bilhões de parâmetros no total, 37 bilhões ativados por token) e o menor GPT-OSS-20B.
A Nvidia foi a única plataforma a enviar resultados para ambos os novos testes, utilizando o sistema GB300 NVL72 e otimizações avançadas de software, como gráficos CUDA e roteamento inteligente de especialistas .
O modelo DeepSeek-V3 utiliza técnicas de ponta, como Atenção Multi-head Latente (MLA), segmentação refinada de especialistas (160 especialistas roteados), previsão de múltiplos tokens e balanceamento de carga livre de perda auxiliar .
Studio Global AI
Search, cite, and publish your own answer
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Câu trả lời ngắn gọn cho "Nvidia arrasa no MLPerf Training v6.0 com plataforma Blackwell e novos desafios de IA" là gì?
Nvidia conquistou uma vitória absoluta no MLPerf Training v6.0, alcançando o menor tempo de treinamento e a melhor performance por acelerador em todos os sete benchmarks, sendo a única empresa a participar de todos os...
Những điểm chính cần xác nhận đầu tiên là gì?
Nvidia conquistou uma vitória absoluta no MLPerf Training v6.0, alcançando o menor tempo de treinamento e a melhor performance por acelerador em todos os sete benchmarks, sendo a única empresa a participar de todos os... Foram introduzidos dois novos benchmarks de pré treinamento baseados em Mistura de Especialistas (MoE): DeepSeek V3 (671 bilhões de parâmetros) e GPT OSS 20B [3][10].
Tôi nên làm gì tiếp theo trong thực tế?
O sistema Nvidia GB300 NVL72 (Blackwell Ultra) entregou ganhos de desempenho de até 2,77 vezes em tokens por segundo comparado ao GB200 NVL72, impulsionado por avanços em hardware e software [13][7].
A CoreWeave, provedora de infraestrutura em nuvem, treinou o modelo DeepSeek-V3 671B em impressionantes 2,02 minutos, utilizando 8.192 GPUs Nvidia GB300 NVL72 — o maior cluster com essa GPU nesta rodada — rodando em sua infraestrutura de nuvem comercial .
Este foi o resultado mais rápido de treinamento para este modelo em todo o benchmark, alcançado por meio de otimizações completas que envolveram desde a rede e orquestração até as camadas de armazenamento .
GB300 NVL72 vs. GB200 NVL72: O Salto de Performance
O sistema GB300 NVL72 (Blackwell Ultra) entrega ganhos de até 2,77 vezes na velocidade de tokens por segundo em inferência, em comparação com o GB200 NVL72, além de demonstrar uma taxa de treinamento substancialmente maior nesta rodada .
A arquitetura Blackwell Ultra se beneficia de orçamentos maiores de memória e energia, o que permite maior localidade dos modelos e, consequentemente, maior rendimento .
A pilha de software da Nvidia também trouxe ganhos significativos: a produtividade no treinamento do DeepSeek-V3 melhorou em 1,3 vezes em apenas três meses no mesmo hardware, graças a inovações como gráficos CUDA de iteração completa e fusões com a DSL CuTe .
Participação Recorde e Diversidade Técnica
24 organizações enviaram resultados, utilizando impressionantes 95 sistemas distintos com 13 aceleradores de hardware diferentes.
Esta edição do benchmark se destacou pela crescente diversidade técnica, incluindo múltiplas receitas de precisão FP4 (como o MXFP4 da AMD) e variados frameworks de software, conforme observou Shriya Rishab, copresidente do MLPerf Training .
As GPUs AMD Instinct MI355X, utilizando o formato de precisão MXFP4, demonstraram desempenho competitivo contra as plataformas Nvidia B200 no ajuste fino do modelo Llama 2-70B e no pré-treinamento do Llama 3.1-8B .
Rede Escalável e Vitórias em Nível de Sistema
Os parceiros da Nvidia escalaram seus sistemas para até 8.192 GPUs Blackwell em clusters de hiperescala, utilizando a rede Spectrum-X Ethernet com Roteamento Adaptativo e Controle de Congestionamento. Isso foi fundamental para manter a largura de banda próxima da teórica nos exigentes padrões de comunicação "todos-para-todos", comuns em modelos MoE .
A combinação de domínios NVLink-switch e uma estrutura de rede escalável entregou tempos recordes em todos os benchmarks, incluindo: pré-treinamento do Llama 3.1 8B (5,2 minutos), ajuste fino do Llama 2 70B (0,40 minutos), geração de imagens com FLUX.1 (12,5 minutos), DLRM-DCNv2 (0,71 minutos) e RetinaNet (1,4 minutos) .
investors.coreweave.comCoreWeave Delivers Leading Inference Performance in MLPerf ...
Comments
0 comments