Nvidia fejer alt af banen i MLPerf Training 6.0: Blackwell-æraens totale dominans
Nvidia vinder samtlige syv benchmarks i MLPerf Training v6.0 – den eneste platform, der deltog i alle tests, og som både leverer den hurtigste træningstid i stor skala og den bedste ydelse pr. To nye benchmarks for Mixture of Experts (MoE) træning introduceres: den gigantiske DeepSeek V3 med 671B parametre og den le...
What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell plaNVIDIA's Blackwell platform set new performance records across all MLPerf Training v6.0 benchmarks, driven by the powerful GB300 NVL72 system.
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell pla. Article summary: ## MLPerf Training v6.0 Key Highlights. Topic tags: general, documentation, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "Home » News » NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. # NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. NVIDIA has publish" source context "NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform - StorageReview.com" Reference image 2: visual subject "# MLPerf Inference v6.0 Results Explained: GPU Performance Rankings for AI Workloads (2026). MLPerf Inference v6.0 results dropped April 1, 2026, and
openai.com
MLPerf Training v6.0: Hovedpunkterne
Nvidia leverede en total dominans og vandt hvert eneste benchmark i MLPerf Training v6.0 – både den hurtigste tid til træning i stor skala og den højeste ydelse per accelerator på tværs af alle syv arbejdsbelastninger. De var den eneste deltager, der stillede op i alle tests .
Nye MoE-arbejdsbelastninger: DeepSeek-V3 671B & GPT-OSS-20B
MLCommons introducerede to nye benchmarks til prætræning baseret på Mixture-of-Experts (MoE): DeepSeek-V3 (671 mia. parametre i alt, 37 mia. aktiveret per token) og den mindre GPT-OSS-20B.
Nvidia var den eneste platform, der indsendte resultater for begge nye benchmarks. De brugte GB300 NVL72-systemet, som blev optimeret via specialbyggede softwarestakke, CUDA-grafer og avanceret MoE-routing .
What is the short answer to "Nvidia fejer alt af banen i MLPerf Training 6.0: Blackwell-æraens totale dominans"?
Nvidia vinder samtlige syv benchmarks i MLPerf Training v6.0 – den eneste platform, der deltog i alle tests, og som både leverer den hurtigste træningstid i stor skala og den bedste ydelse pr.
What are the key points to validate first?
Nvidia vinder samtlige syv benchmarks i MLPerf Training v6.0 – den eneste platform, der deltog i alle tests, og som både leverer den hurtigste træningstid i stor skala og den bedste ydelse pr. To nye benchmarks for Mixture of Experts (MoE) træning introduceres: den gigantiske DeepSeek V3 med 671B parametre og den lettere GPT OSS 20B, hvilket sætter strøm til de nyeste AI arkitekturer.
What should I do next in practice?
CoreWeave knuser det hele: Træning af DeepSeek V3 671B på blot 2,02 minutter ved brug af 8.192 Nvidia GB300 NVL72 GPU'er – den største klynge i denne runde.
CoreWeave trænede DeepSeek-V3 671B på 2,02 minutter på 8.192 Nvidia GB300 NVL72 GPU'er – den største GB300-klynge i denne runde – kørende på produktionsklar cloud-infrastruktur .
Dette var det hurtigste DeepSeek-V3 træningsresultat i benchmarken, opnået via optimeringer i hele systemstakken: netværk, orkestrering og storage .
Nvidia GB300 NVL72 vs. GB200 NVL72
GB300 NVL72 (Blackwell Ultra) leverer op til 2,77x hurtigere token-per-sekund i inferens i forhold til GB200 NVL72 og demonstrerede betydeligt højere træningsgennemløb i denne runde .
Blackwell Ultra nyder godt af større hukommelse og strømbudgetter, hvilket muliggør højere modellokalitet og gennemstrømning sammenlignet med GB200 .
Softwareoptimeringer gav yderligere gevinster: Træningsgennemløbet for DeepSeek-V3 blev forbedret med 1,3x på bare tre måneder på identisk hardware via softwareinnovationer som fuld-iterations CUDA-grafer og CuTe DSL-fusioner .
Rekorddeltagelse & teknisk diversitet
24 organisationer indsendte resultater på tværs af 95 forskellige systemer med 13 forskellige hardwareacceleratorer.
Runden bød på voksende teknisk mangfoldighed, herunder flere FP4-præcisionsopskrifter (bl.a. MXFP4 fra AMD) og varierede software-frameworks, som bemærket af MLPerf Trainings medformand Shriya Rishab .
AMDs Instinct MI355X med MXFP4 leverede konkurrencedygtig ydelse mod Nvidia B200 på Llama 2-70B finetuning og Llama 3.1-8B prætræning .
Netværk i hyperskala & systemgevinster
Nvidias partnere skalerede til 8.192 Blackwell GPU'er i hyperscale-klynger ved at udnytte Spectrum-X Ethernet med Adaptive Routing og Congestion Control for at opretholde næsten teoretisk stoffets båndbredde til MoE's burst-prægede all-to-all kommunikationsmønstre .
Kombinationen af NVLink-switch-domæner og skaleringsnetværk leverede rekordtider over hele linjen, herunder Llama 3.1 8B prætræning (5,2 minutter), Llama 2 70B finetuning (0,40 minutter), FLUX.1 billedgenerering (12,5 minutter), DLRM-DCNv2 (0,71 minutter) og RetinaNet (1,4 minutter) .
investors.coreweave.comCoreWeave Delivers Leading Inference Performance in MLPerf ...
Comments
0 comments