NVIDIA won alle zeven benchmarks in MLPerf Training v6.0, met de snelste traintijd op schaal én de hoogste prestaties per accelerator op elk onderdeel [3]. MLCommons introduceerde nieuwe MoE workloads gebaseerd op DeepSeek V3 (671B parameters) en GPT OSS 20B, waarbij NVIDIA het enige platform was dat op beide tests...

Create a landscape editorial hero image for this Studio Global article: What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell pla. Article summary: ## MLPerf Training v6.0 Key Highlights. Topic tags: general, documentation, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "Home » News » NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. # NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. NVIDIA has publish" source context "NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform - StorageReview.com" Reference image 2: visual subject "# MLPerf Inference v6.0 Results Explained: GPU Performance Rankings for AI Workloads (2026). MLPerf Inference v6.0 results dropped April 1, 2026, and
In de nieuwste MLPerf Training v6.0 resultaten heeft NVIDIA een ongekende dominantie laten zien. Het bedrijf behaalde de snelste totaaltijd om op schaal te trainen én de hoogste prestaties per accelerator, gemeten over alle zeven benchmarks. NVIDIA was bovendien de enige deelnemer die op élke test een resultaat indiende .
Deze prestatie markeert een nieuw tijdperk waarin trainingssnelheden op productieschaal razendsnel verbeteren. Van het finetunen van grote taalmodellen in minder dan een halve minuut tot het volledig pretrainen van kolossale MoE-architecturen (Mixture of Experts) in enkele minuten – de cijfers liegen er niet om.
| Benchmark | Tijd om te trainen |
|---|---|
| LLM Pretraining (Llama 3.1 8B) | 5,2 minuten |
| LLM Fine-Tuning (Llama 2 70B LoRA) | 0,40 minuten |
| Image Generation (FLUX.1) | 12,5 minuten |
| Recommender (DLRM-DCNv2) | 0,71 minuten |
| Graph Neural Network (R-GAT) | 0,84 minuten |
| Object Detection (RetinaNet) | 1,4 minuten |
Deze tijden werden bereikt met systemen die gebruikmaken van de nieuwste Blackwell-architectuur, waaronder zowel de GB200 NVL72 als de nog krachtigere GB300 NVL72. Bij gelijke schaal leverde de GB300 NVL72 tot 1,6x snellere trainingstijden op dan zijn voorganger .
Voor het eerst introduceert MLCommons twee grootschalige benchmarks die gebruikmaken van MoE-architecturen. Dit is een directe reactie op de industrietrend waarbij modellen zoals DeepSeek-V3 en GPT-OSS steeds meer experts gebruiken om efficiënter te schalen zonder alle parameters tegelijk te activeren.
De GPT-OSS-20B benchmark biedt een kleiner MoE-model dat nog steeds complexe routing- en communicatiepatronen vereist. Voor organisaties die niet direct naar 671B-parameters schalen, levert dit een realistischer startpunt op .
NVIDIA was het enige platform dat resultaten indiende voor zowel de DeepSeek-V3 als de GPT-OSS-20B workload. Dit onderstreept de volledigheid van het NVIDIA-ecosysteem, waarbij de GB300 NVL72-systemen via CUDA graphs, geavanceerde MoE-routing en aangepaste softwarestacks werden geoptimaliseerd om deze complexe architecturen aan te kunnen .
Het absolute hoogtepunt van deze MLPerf-ronde komt van cloudprovider CoreWeave, dat DeepSeek-V3 671B trainde in 2,02 minuten – een tijd die voorheen ondenkbaar was voor een model van deze omvang.
"Running on the same CoreWeave Cloud infrastructure available to customers today, CoreWeave delivered the fastest DeepSeek-V3 671B training performance in the benchmark," aldus het bedrijf in de officiële aankondiging
.
Dit resultaat benadrukt hoe grensverleggende AI-trainingen niet langer het exclusieve domein zijn van gespecialiseerde labs, maar beschikbaar komen op publieke cloudinfrastructuur.
De introductie van de NVIDIA GB300 NVL72, ook wel Blackwell Ultra genoemd, markeert een substantiële generatiesprong. Waar de GB200 al indrukwekkend was, tilt de GB300 de prestaties naar een nog hoger niveau – zowel bij training als bij inferentie.
Deze hardware-vooruitgang vertaalt zich direct naar betere prijs-prestatieverhoudingen: de kosten per token dalen gestaag, wat essentieel is voor massale AI-adoptie. NVIDIA’s cumulatieve MLPerf-overwinningen (training én inferentie) staan nu op 291 sinds 2018 – 9x meer dan alle andere deelnemers bij elkaar .
De MLPerf Training v6.0 ronde was de meest diverse tot nu toe:
AMD liet zien dat het de achterstand snel inloopt. Het Instinct MI355X-platform met MXFP4 leverde concurrerende prestaties tegenover het NVIDIA B200-platform met NVFP4 :
Hoewel NVIDIA de absolute leider blijft, is deze competitieve druk een positief signaal voor de industrie: het stimuleert innovatie en kan leiden tot lagere kosten voor eindgebruikers.
De MLPerf Training v6.0 resultaten illustreren drie fundamentele trends:
Voor Nederlandse bedrijven en kennisinstellingen die met AI werken, is de boodschap duidelijk: de drempel om grootschalige modellen te trainen wordt steeds lager, terwijl cloudproviders zoals CoreWeave deze capaciteit als dienst beschikbaar stellen. Het is niet langer de vraag óf je een 671B-parameter model kúnt trainen, maar wat je ermee wilt bereiken.
"Despite its excellent performance, DeepSeek-V3 requires only 2.788M H800 GPU hours for its full training," merkten de ontwikkelaars op in hun technische rapport – een cijfer dat de enorme efficiëntie van moderne trainingspipelines onderstreept
.
De volgende MLPerf-ronde zal ongetwijfeld weer nieuwe records brengen. Voor nu is één ding zeker: NVIDIA's Blackwell-platform heeft de lat hoger gelegd dan ooit.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
NVIDIA won alle zeven benchmarks in MLPerf Training v6.0, met de snelste traintijd op schaal én de hoogste prestaties per accelerator op elk onderdeel [3].
NVIDIA won alle zeven benchmarks in MLPerf Training v6.0, met de snelste traintijd op schaal én de hoogste prestaties per accelerator op elk onderdeel [3]. MLCommons introduceerde nieuwe MoE workloads gebaseerd op DeepSeek V3 (671B parameters) en GPT OSS 20B, waarbij NVIDIA het enige platform was dat op beide tests inzendingen deed [3][10].
CoreWeave trainde DeepSeek V3 671B in 2,02 minuten op 8.192 GB300 NVL72 GPU's – de grootste GB300 configuratie in deze ronde en de snelste trainingstijd in de benchmark [8][26].
Loading comments...
Comments
0 comments