What should I do next in practice?

CoreWeave trainde DeepSeek V3 671B in 2,02 minuten op 8.192 GB300 NVL72 GPU's – de grootste GB300 configuratie in deze ronde en de snelste trainingstijd in de benchmark [8][26].

studioglobal

← Back to Trending

AnswersPublished2 weeks agoLast edited 2 weeks ago29 sources

NVIDIA Blackwell domineert MLPerf Training v6.0: DeepSeek-V3 record op 8192 GPU's

NVIDIA won alle zeven benchmarks in MLPerf Training v6.0, met de snelste traintijd op schaal én de hoogste prestaties per accelerator op elk onderdeel [3]. MLCommons introduceerde nieuwe MoE workloads gebaseerd op DeepSeek V3 (671B parameters) en GPT OSS 20B, waarbij NVIDIA het enige platform was dat op beide tests...

Search & fact-check with Studio Global AI Browse more Trending pages

509K0

NVIDIA Blackwell Ultra GPUs powering record-breaking MLPerf Training v6.0 results for massive AI models. — What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell plaNVIDIA's Blackwell platform set new performance records across all MLPerf Training v6.0 benchmarks, driven by the powerful GB300 NVL72 system.
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell pla. Article summary: ## MLPerf Training v6.0 Key Highlights. Topic tags: general, documentation, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "Home » News » NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. # NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. NVIDIA has publish" source context "NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform - StorageReview.com" Reference image 2: visual subject "# MLPerf Inference v6.0 Results Explained: GPU Performance Rankings for AI Workloads (2026). MLPerf Inference v6.0 results dropped April 1, 2026, and
openai.com

NVIDIA behaalt clean sweep in MLPerf Training v6.0

In de nieuwste MLPerf Training v6.0 resultaten heeft NVIDIA een ongekende dominantie laten zien. Het bedrijf behaalde de snelste totaaltijd om op schaal te trainen én de hoogste prestaties per accelerator, gemeten over alle zeven benchmarks. NVIDIA was bovendien de enige deelnemer die op élke test een resultaat indiende .

Deze prestatie markeert een nieuw tijdperk waarin trainingssnelheden op productieschaal razendsnel verbeteren. Van het finetunen van grote taalmodellen in minder dan een halve minuut tot het volledig pretrainen van kolossale MoE-architecturen (Mixture of Experts) in enkele minuten – de cijfers liegen er niet om.

De complete lijst van NVIDIA’s trainingsrecords

Benchmark	Tijd om te trainen
LLM Pretraining (Llama 3.1 8B)	5,2 minuten
LLM Fine-Tuning (Llama 2 70B LoRA)	0,40 minuten
Image Generation (FLUX.1)	12,5 minuten
Recommender (DLRM-DCNv2)	0,71 minuten
Graph Neural Network (R-GAT)	0,84 minuten
Object Detection (RetinaNet)	1,4 minuten

Deze tijden werden bereikt met systemen die gebruikmaken van de nieuwste Blackwell-architectuur, waaronder zowel de GB200 NVL72 als de nog krachtigere GB300 NVL72. Bij gelijke schaal leverde de GB300 NVL72 tot 1,6x snellere trainingstijden op dan zijn voorganger .

Nieuwe MoE-workloads: DeepSeek-V3 en GPT-OSS komen naar de benchmark

Voor het eerst introduceert MLCommons twee grootschalige benchmarks die gebruikmaken van MoE-architecturen. Dit is een directe reactie op de industrietrend waarbij modellen zoals DeepSeek-V3 en GPT-OSS steeds meer experts gebruiken om efficiënter te schalen zonder alle parameters tegelijk te activeren.

DeepSeek-V3 671B: Een technisch hoogstandje

Totale parameters: 671 miljard, waarvan slechts 37 miljard geactiveerd per token.
Dataset: C4 (Colossal Clean Crawled Corpus) met een Llama-3 compatibele tokenizer (128k vocabulaire).
Architectuurkenmerken:
- Multi-head Latent Attention (MLA): Vermindert de geheugenbehoefte van het aandachtsmechanisme.
- Fijnmazige expertsegmentatie: 160 gerouteerde experts, maar per token wordt slechts een fractie ingeschakeld.
- Multi-token voorspelling voor een hogere trainingsefficiëntie.
- Auxiliary-loss-free load balancing: Voorkomt dat bepaalde experts overbelast raken zonder complexe hulpverliesfuncties.
Opmerkelijke stabiliteit: Tijdens het volledige trainingsproces werden geen onherstelbare verliespieken of rollbacks vastgesteld .

GPT-OSS-20B: De kleinere, maar relevante tegenhanger

De GPT-OSS-20B benchmark biedt een kleiner MoE-model dat nog steeds complexe routing- en communicatiepatronen vereist. Voor organisaties die niet direct naar 671B-parameters schalen, levert dit een realistischer startpunt op .

NVIDIA was het enige platform dat resultaten indiende voor zowel de DeepSeek-V3 als de GPT-OSS-20B workload. Dit onderstreept de volledigheid van het NVIDIA-ecosysteem, waarbij de GB300 NVL72-systemen via CUDA graphs, geavanceerde MoE-routing en aangepaste softwarestacks werden geoptimaliseerd om deze complexe architecturen aan te kunnen .

CoreWeave zet DeepSeek-V3 record: 2,02 minuten op 8.192 GPU’s

Het absolute hoogtepunt van deze MLPerf-ronde komt van cloudprovider CoreWeave, dat DeepSeek-V3 671B trainde in 2,02 minuten – een tijd die voorheen ondenkbaar was voor een model van deze omvang.

De ingrediënten van dit record

GPU-configuratie: 8.192 NVIDIA GB300 NVL72 GPU's, verdeeld over 2.048 nodes. Dit was de grootste ingezonden GB300-cluster in de hele ronde.
Netwerk en orchestratie: CoreWeave gebruikte zijn productieklare cloudinfrastructuur, met full-stack optimalisaties over netwerken (NVLink-switchdomeinen en scale-out fabric), orchestratie en opslaglagen. Voor de bursty all-to-all communicatiepatronen van MoE-modellen werd Spectrum-X Ethernet ingezet met Adaptive Routing en Congestion Control .
Schalingsefficiëntie: Op 4.096 GPU's trainde CoreWeave het model in 3,09 minuten; op 2.048 GPU's in 5,54 minuten. De bijna-lineaire schaling bewijst dat de onderliggende infrastructuur de communicatie-overhead beheerst.

"Running on the same CoreWeave Cloud infrastructure available to customers today, CoreWeave delivered the fastest DeepSeek-V3 671B training performance in the benchmark," aldus het bedrijf in de officiële aankondiging .

Dit resultaat benadrukt hoe grensverleggende AI-trainingen niet langer het exclusieve domein zijn van gespecialiseerde labs, maar beschikbaar komen op publieke cloudinfrastructuur.

GB300 NVL72 vs. GB200 NVL72: de Blackwell Ultra-sprong

De introductie van de NVIDIA GB300 NVL72, ook wel Blackwell Ultra genoemd, markeert een substantiële generatiesprong. Waar de GB200 al indrukwekkend was, tilt de GB300 de prestaties naar een nog hoger niveau – zowel bij training als bij inferentie.

Belangrijkste verbeteringen

Tot 2,77x hogere token-per-seconde doorvoer bij inferentie vergeleken met de GB200 NVL72, zoals gemeten op DeepSeek-R1 .
Aanzienlijk hogere trainingdoorvoer op DeepSeek-V3: NVIDIA’s softwarestack verbeterde de doorvoer met 1,3x in slechts drie maanden op identieke hardware, puur door software-innovaties zoals full-iteration CUDA graphs en CuTe DSL fusies .
Groter geheugen- en energiebudget: De GB300 NVL72 beschikt over 279 GB GPU-geheugen per accelerator, wat deel uitmaakt van een rack-architectuur met 21 TB totaal GPU-geheugen verbonden via NVLink . Dit stelt modellen in staat om grotere gedeelten lokaal te houden, wat de communicatie-overhead verlaagt.

Deze hardware-vooruitgang vertaalt zich direct naar betere prijs-prestatieverhoudingen: de kosten per token dalen gestaag, wat essentieel is voor massale AI-adoptie. NVIDIA’s cumulatieve MLPerf-overwinningen (training én inferentie) staan nu op 291 sinds 2018 – 9x meer dan alle andere deelnemers bij elkaar .

Recorddeelname en AMD's tegenoffensief

De MLPerf Training v6.0 ronde was de meest diverse tot nu toe:

24 organisaties dienden resultaten in .
95 verschillende systemen met 13 verschillende hardware-accelerators werden getest .
Meerdere FP4-precisievarianten (waaronder MXFP4 van AMD) en uiteenlopende softwareframeworks werden toegepast, wat de groeiende volwassenheid van het ecosysteem weerspiegelt .

AMD Instinct MI355X: serieus alternatief voor B200

AMD liet zien dat het de achterstand snel inloopt. Het Instinct MI355X-platform met MXFP4 leverde concurrerende prestaties tegenover het NVIDIA B200-platform met NVFP4 :

Llama 2-70B fine-tuning: AMD kwam tot op 5% van de NVIDIA-prestaties.
Llama 3.1-8B pre-training: AMD bleef binnen 6% van NVIDIA’s resultaten.

Hoewel NVIDIA de absolute leider blijft, is deze competitieve druk een positief signaal voor de industrie: het stimuleert innovatie en kan leiden tot lagere kosten voor eindgebruikers.

Andere opvallende deelnemers

Lambda liet zien dat softwarevolwassenheid ertoe doet: een upgrade van CUDA 12.9 naar CUDA 13.1 op identieke HGX B200-hardware leverde tot 9% hogere doorvoer op Llama 3.1 8B .
CoreWeave verdubbelde zijn eigen DeepSeek R1-servermodus-doorvoer van MLPerf 5.1 naar 6.0 in slechts 6 maanden, puur door platformoptimalisaties .

Wat dit betekent voor de AI-industrie

De MLPerf Training v6.0 resultaten illustreren drie fundamentele trends:

Trainingstijden blijven spectaculair dalen. Modellen van 671B parameters die in 2018 nog maanden zouden kosten, worden nu in minuten getraind.
MoE wordt de standaard. Met DeepSeek-V3 en GPT-OSS in de benchmark erkent MLCommons dat de industrie verschuift naar schaalbare, efficiënte architecturen die niet alle parameters tegelijk hoeven te activeren.
Hardware-software-codesign is de sleutel. NVIDIA's winst van 1,3x in drie maanden op identieke hardware bewijst dat software-optimalisaties net zo belangrijk zijn als ruwe rekenkracht.

Voor Nederlandse bedrijven en kennisinstellingen die met AI werken, is de boodschap duidelijk: de drempel om grootschalige modellen te trainen wordt steeds lager, terwijl cloudproviders zoals CoreWeave deze capaciteit als dienst beschikbaar stellen. Het is niet langer de vraag óf je een 671B-parameter model kúnt trainen, maar wat je ermee wilt bereiken.

"Despite its excellent performance, DeepSeek-V3 requires only 2.788M H800 GPU hours for its full training," merkten de ontwikkelaars op in hun technische rapport – een cijfer dat de enorme efficiëntie van moderne trainingspipelines onderstreept .

De volgende MLPerf-ronde zal ongetwijfeld weer nieuwe records brengen. Voor nu is één ding zeker: NVIDIA's Blackwell-platform heeft de lat hoger gelegd dan ooit.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Search & fact-check with Studio Global AI

Sources

Comments

0 comments

Loading comments...

← Back to Trending

AnswersPublished2 weeks agoLast edited 2 weeks ago29 sources

NVIDIA Blackwell domineert MLPerf Training v6.0: DeepSeek-V3 record op 8192 GPU's

Search & fact-check with Studio Global AI Browse more Trending pages

509K0

NVIDIA behaalt clean sweep in MLPerf Training v6.0

De complete lijst van NVIDIA’s trainingsrecords

Benchmark	Tijd om te trainen
LLM Pretraining (Llama 3.1 8B)	5,2 minuten
LLM Fine-Tuning (Llama 2 70B LoRA)	0,40 minuten
Image Generation (FLUX.1)	12,5 minuten
Recommender (DLRM-DCNv2)	0,71 minuten
Graph Neural Network (R-GAT)	0,84 minuten
Object Detection (RetinaNet)	1,4 minuten

Nieuwe MoE-workloads: DeepSeek-V3 en GPT-OSS komen naar de benchmark

DeepSeek-V3 671B: Een technisch hoogstandje

Totale parameters: 671 miljard, waarvan slechts 37 miljard geactiveerd per token.
Dataset: C4 (Colossal Clean Crawled Corpus) met een Llama-3 compatibele tokenizer (128k vocabulaire).
Architectuurkenmerken:
- Multi-head Latent Attention (MLA): Vermindert de geheugenbehoefte van het aandachtsmechanisme.
- Fijnmazige expertsegmentatie: 160 gerouteerde experts, maar per token wordt slechts een fractie ingeschakeld.
- Multi-token voorspelling voor een hogere trainingsefficiëntie.
- Auxiliary-loss-free load balancing: Voorkomt dat bepaalde experts overbelast raken zonder complexe hulpverliesfuncties.
Opmerkelijke stabiliteit: Tijdens het volledige trainingsproces werden geen onherstelbare verliespieken of rollbacks vastgesteld .

GPT-OSS-20B: De kleinere, maar relevante tegenhanger

CoreWeave zet DeepSeek-V3 record: 2,02 minuten op 8.192 GPU’s

De ingrediënten van dit record

GPU-configuratie: 8.192 NVIDIA GB300 NVL72 GPU's, verdeeld over 2.048 nodes. Dit was de grootste ingezonden GB300-cluster in de hele ronde.
Netwerk en orchestratie: CoreWeave gebruikte zijn productieklare cloudinfrastructuur, met full-stack optimalisaties over netwerken (NVLink-switchdomeinen en scale-out fabric), orchestratie en opslaglagen. Voor de bursty all-to-all communicatiepatronen van MoE-modellen werd Spectrum-X Ethernet ingezet met Adaptive Routing en Congestion Control .
Schalingsefficiëntie: Op 4.096 GPU's trainde CoreWeave het model in 3,09 minuten; op 2.048 GPU's in 5,54 minuten. De bijna-lineaire schaling bewijst dat de onderliggende infrastructuur de communicatie-overhead beheerst.

"Running on the same CoreWeave Cloud infrastructure available to customers today, CoreWeave delivered the fastest DeepSeek-V3 671B training performance in the benchmark," aldus het bedrijf in de officiële aankondiging .

Dit resultaat benadrukt hoe grensverleggende AI-trainingen niet langer het exclusieve domein zijn van gespecialiseerde labs, maar beschikbaar komen op publieke cloudinfrastructuur.

GB300 NVL72 vs. GB200 NVL72: de Blackwell Ultra-sprong

Belangrijkste verbeteringen

Tot 2,77x hogere token-per-seconde doorvoer bij inferentie vergeleken met de GB200 NVL72, zoals gemeten op DeepSeek-R1 .
Aanzienlijk hogere trainingdoorvoer op DeepSeek-V3: NVIDIA’s softwarestack verbeterde de doorvoer met 1,3x in slechts drie maanden op identieke hardware, puur door software-innovaties zoals full-iteration CUDA graphs en CuTe DSL fusies .
Groter geheugen- en energiebudget: De GB300 NVL72 beschikt over 279 GB GPU-geheugen per accelerator, wat deel uitmaakt van een rack-architectuur met 21 TB totaal GPU-geheugen verbonden via NVLink . Dit stelt modellen in staat om grotere gedeelten lokaal te houden, wat de communicatie-overhead verlaagt.

Recorddeelname en AMD's tegenoffensief

De MLPerf Training v6.0 ronde was de meest diverse tot nu toe:

24 organisaties dienden resultaten in .
95 verschillende systemen met 13 verschillende hardware-accelerators werden getest .
Meerdere FP4-precisievarianten (waaronder MXFP4 van AMD) en uiteenlopende softwareframeworks werden toegepast, wat de groeiende volwassenheid van het ecosysteem weerspiegelt .

AMD Instinct MI355X: serieus alternatief voor B200

AMD liet zien dat het de achterstand snel inloopt. Het Instinct MI355X-platform met MXFP4 leverde concurrerende prestaties tegenover het NVIDIA B200-platform met NVFP4 :

Llama 2-70B fine-tuning: AMD kwam tot op 5% van de NVIDIA-prestaties.
Llama 3.1-8B pre-training: AMD bleef binnen 6% van NVIDIA’s resultaten.

Hoewel NVIDIA de absolute leider blijft, is deze competitieve druk een positief signaal voor de industrie: het stimuleert innovatie en kan leiden tot lagere kosten voor eindgebruikers.

Andere opvallende deelnemers

Lambda liet zien dat softwarevolwassenheid ertoe doet: een upgrade van CUDA 12.9 naar CUDA 13.1 op identieke HGX B200-hardware leverde tot 9% hogere doorvoer op Llama 3.1 8B .
CoreWeave verdubbelde zijn eigen DeepSeek R1-servermodus-doorvoer van MLPerf 5.1 naar 6.0 in slechts 6 maanden, puur door platformoptimalisaties .

Wat dit betekent voor de AI-industrie

De MLPerf Training v6.0 resultaten illustreren drie fundamentele trends:

Trainingstijden blijven spectaculair dalen. Modellen van 671B parameters die in 2018 nog maanden zouden kosten, worden nu in minuten getraind.
MoE wordt de standaard. Met DeepSeek-V3 en GPT-OSS in de benchmark erkent MLCommons dat de industrie verschuift naar schaalbare, efficiënte architecturen die niet alle parameters tegelijk hoeven te activeren.
Hardware-software-codesign is de sleutel. NVIDIA's winst van 1,3x in drie maanden op identieke hardware bewijst dat software-optimalisaties net zo belangrijk zijn als ruwe rekenkracht.

"Despite its excellent performance, DeepSeek-V3 requires only 2.788M H800 GPU hours for its full training," merkten de ontwikkelaars op in hun technische rapport – een cijfer dat de enorme efficiëntie van moderne trainingspipelines onderstreept .

De volgende MLPerf-ronde zal ongetwijfeld weer nieuwe records brengen. Voor nu is één ding zeker: NVIDIA's Blackwell-platform heeft de lat hoger gelegd dan ooit.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

NVIDIA behaalt clean sweep in MLPerf Training v6.0

De complete lijst van NVIDIA’s trainingsrecords

Nieuwe MoE-workloads: DeepSeek-V3 en GPT-OSS komen naar de benchmark

DeepSeek-V3 671B: Een technisch hoogstandje

GPT-OSS-20B: De kleinere, maar relevante tegenhanger

CoreWeave zet DeepSeek-V3 record: 2,02 minuten op 8.192 GPU’s

De ingrediënten van dit record

GB300 NVL72 vs. GB200 NVL72: de Blackwell Ultra-sprong

Belangrijkste verbeteringen

Recorddeelname en AMD's tegenoffensief

AMD Instinct MI355X: serieus alternatief voor B200

Andere opvallende deelnemers

Wat dit betekent voor de AI-industrie

Search, cite, and publish your own answer

People also ask

What is the short answer to "NVIDIA Blackwell domineert MLPerf Training v6.0: DeepSeek-V3 record op 8192 GPU's"?

What are the key points to validate first?

What should I do next in practice?

Sources

Comments

NVIDIA behaalt clean sweep in MLPerf Training v6.0

De complete lijst van NVIDIA’s trainingsrecords

Nieuwe MoE-workloads: DeepSeek-V3 en GPT-OSS komen naar de benchmark

DeepSeek-V3 671B: Een technisch hoogstandje

GPT-OSS-20B: De kleinere, maar relevante tegenhanger

CoreWeave zet DeepSeek-V3 record: 2,02 minuten op 8.192 GPU’s

De ingrediënten van dit record

GB300 NVL72 vs. GB200 NVL72: de Blackwell Ultra-sprong

Belangrijkste verbeteringen

Recorddeelname en AMD's tegenoffensief

AMD Instinct MI355X: serieus alternatief voor B200

Andere opvallende deelnemers

Wat dit betekent voor de AI-industrie

Search, cite, and publish your own answer

People also ask

What is the short answer to "NVIDIA Blackwell domineert MLPerf Training v6.0: DeepSeek-V3 record op 8192 GPU's"?

What are the key points to validate first?

What should I do next in practice?

Sources

Comments