NVIDIA gewinnt alle Benchmarks im MLPerf Training 6.0: Die Blackwell Plattform lieferte in allen sieben Workloads die schnellste Trainingszeit und die höchste Performance pro Beschleuniger. Neue MoE Benchmarks: MLCommons führte mit DeepSeek V3 (671 Mrd.

Create a landscape editorial hero image for this Studio Global article: What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell pla. Article summary: ## MLPerf Training v6.0 Key Highlights. Topic tags: general, documentation, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "Home » News » NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. # NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. NVIDIA has publish" source context "NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform - StorageReview.com" Reference image 2: visual subject "# MLPerf Inference v6.0 Results Explained: GPU Performance Rankings for AI Workloads (2026). MLPerf Inference v6.0 results dropped April 1, 2026, and
Das MLCommons-Konsortium hat die Ergebnisse des MLPerf Training v6.0 veröffentlicht, und das Bild ist eindeutig: NVIDIA hat mit seiner Blackwell-Plattform einen beeindruckenden Durchmarsch hingelegt. Der Konzern gewann nicht nur jede einzelne der sieben Benchmark-Kategorien, sondern war auch der einzige Teilnehmer, der überhaupt in allen Disziplinen antrat .
Die Dominanz zeigt sich auf zwei Ebenen: NVIDIA erreichte sowohl die kürzeste absolute Trainingszeit („Time-to-Train“) als auch die höchste Performance pro einzelnem Beschleuniger (GPU). Dieser Doppelsieg unterstreicht die Skalierungsfähigkeit der Plattform, vom einzelnen Chip bis hin zu massiven Clustern mit Tausenden von GPUs .
Die vielleicht spannendste Neuerung in dieser Runde ist die Einführung der Mixture-of-Experts (MoE) Workloads. Diese Modelle sind der heiße Scheiß in der KI-Forschung, da sie durch ihre spezielle Architektur riesige Gesamtmodelle ermöglichen, bei denen pro Aufgabe aber nur ein Bruchteil der Parameter aktiv ist. Das spart massiv Rechenleistung .
MLCommons hat zwei neue Benchmarks auf Basis dieser Technologie eingeführt:
DeepSeek-V3 (671B):
Das Schwergewicht unter den neuen Modellen. Mit 671 Milliarden Gesamtparametern, von denen pro Token nur 37 Milliarden aktiviert werden, ist es eine echte Herausforderung für jede Infrastruktur. Das Modell nutzt hochentwickelte Techniken wie Multi-head Latent Attention (MLA) und eine ausgeklügelte Experten-Aufteilung mit 160 gerouteten Experten, um die Last effizient zu verteilen .
GPT-OSS-20B:
Das kleinere, aber dennoch anspruchsvolle Pendant für flexiblere Testumgebungen .
NVIDIA war auch hier der einzige Hardware-Anbieter, der Ergebnisse für beide neuen Benchmarks einreichte. Zum Einsatz kam das GB300 NVL72 System, das mit einem optimierten Software-Stack und fortschrittlichem MoE-Routing die Messlatte für diese Workloads setzte .
Für eine echte Schlagzeile sorgte der Cloud-Spezialist CoreWeave. Das Unternehmen trainierte das DeepSeek-V3 671B-Modell auf seiner produktiven Cloud-Infrastruktur in schier unglaublichen 2,02 Minuten .
Der dafür genutzte Cluster bestand aus 8.192 NVIDIA GB300 NVL72 GPUs, verteilt auf 2.048 Knoten – das größte je in einem MLPerf eingereichte GB300-System . Dieser Rekord wurde nicht in einer isolierten Laborumgebung aufgestellt, sondern auf derselben CoreWeave-Cloud-Infrastruktur, die auch für Kunden verfügbar ist. Möglich wurde dies durch tiefgreifende Optimierungen über den gesamten Stack hinweg, von der Netzwerkebene über die Orchestrierung bis hin zur Speicherarchitektur
.
Zum Vergleich: CoreWeave lieferte auch Ergebnisse für kleinere Konfigurationen und trainierte DeepSeek-V3 auf 4.096 GPUs in 3,09 Minuten und auf 2.048 GPUs in 5,54 Minuten .
Der Sprung von der GB200 NVL72 (Blackwell) zur neuen GB300 NVL72 (Blackwell Ultra) Generation ist frappierend. Die neue Architektur profitiert von größeren Speicher- und Energiebudgets, was eine bessere Modelllokalität und einen höheren Durchsatz ermöglicht .
Die Fakten auf einen Blick:
NVIDIA betont jedoch, dass dies kein reiner Hardware-Sieg ist. Die Software-Abteilung leistete Schwerstarbeit: Allein durch Optimierungen wie vollständige CUDA-Graphen und tiefe Kernel-Fusionen mit CuTe DSL konnte der Trainingsdurchsatz für DeepSeek-V3 auf identischer Hardware innerhalb von drei Monaten um den Faktor 1,3 gesteigert werden . Das zeigt, wie viel Potenzial noch im Software-Stack steckt.
Bei derart massiven Clustern ist das Netzwerk oft der Flaschenhals – besonders bei MoE-Modellen, die durch ihre All-to-All-Kommunikationsmuster zu burst-artigem Datenverkehr neigen. NVIDIA-Partner setzten hier auf Spectrum-X Ethernet mit adaptivem Routing und Congestion Control, um die nahezu theoretisch maximale Bandbreite des Netzwerk-Fabric zu halten. Erst diese Kombination aus NVLink-Switch-Domänen und dem Scale-out-Fabric machte die neuen Rekorde in dieser Größenordnung möglich .
Trotz der NVIDIA-Dominanz war das Teilnehmerfeld so breit wie nie. 24 Organisationen reichten Ergebnisse ein, darunter AMD, Azure, Google, Dell, HPE und viele weitere. Insgesamt wurden 95 verschiedene Systeme mit 13 unterschiedlichen KI-Beschleunigern getestet .
Besonders hervorzuheben ist AMDs Vorstoß mit dem Instinct MI355X Beschleuniger und dem neuen MXFP4-Datenformat. In den Benchmarks Llama 2-70B Fine-Tuning und Llama 3.1-8B Pre-Training zeigte AMD eine starke Leistung und kam bis auf 5% an die Performance des NVIDIA B200 mit NVFP4 heran . Das ist ein Achtungserfolg und zeigt, dass der Wettbewerb im High-Performance-Computing-Segment nicht schläft. David Kanter von MLCommons betonte die wachsende Vielfalt bei FP4-Präzisionsverfahren und Software-Frameworks als Zeichen eines gesunden Ökosystems
.
NVIDIA führte die Ergebnisse nicht nur für die neuen MoE-Workloads an, sondern stellte auch in den klassischen Kategorien neue Bestmarken auf. Hier die stolzen Trainingszeiten der NVIDIA-Plattform :
| Benchmark | Trainingszeit |
|---|---|
| LLM Pre-Training (Llama 3.1 8B) | 5,2 Minuten |
| LLM Fine-Tuning (Llama 2 70B LoRA) | 0,40 Minuten |
| Bildgenerierung (FLUX.1) | 12,5 Minuten |
| Empfehlungssysteme (DLRM-DCNv2) | 0,71 Minuten |
| Objekterkennung (RetinaNet) | 1,4 Minuten |
| Graph Neural Network (R-GAT) | 0,84 Minuten |
Diese Ergebnisse summieren sich zu einer klaren Botschaft: Die Kombination aus Blackwell-Hardware und einem bis ins letzte Detail optimierten Software-Stack definiert derzeit den State of the Art für KI-Training. Mit kumuliert 291 MLPerf-Siegen seit 2018 – neunmal mehr als alle anderen Teilnehmer zusammen – hat NVIDIA seine Position als Benchmark-Platzhirsch eindrucksvoll untermauert .
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
NVIDIA gewinnt alle Benchmarks im MLPerf Training 6.0: Die Blackwell Plattform lieferte in allen sieben Workloads die schnellste Trainingszeit und die höchste Performance pro Beschleuniger.
NVIDIA gewinnt alle Benchmarks im MLPerf Training 6.0: Die Blackwell Plattform lieferte in allen sieben Workloads die schnellste Trainingszeit und die höchste Performance pro Beschleuniger. Neue MoE Benchmarks: MLCommons führte mit DeepSeek V3 (671 Mrd. Parameter) und GPT OSS 20B erstmals anspruchsvolle Mixture of Experts Modelle in den offiziellen Leistungstest ein.
CoreWeave Rekord: Der Cloud Anbieter trainierte das gigantische DeepSeek V3 Modell in nur 2,02 Minuten auf einem Cluster mit 8.192 NVIDIA GB300 NVL72 GPUs – ein neuer Bestwert.
Loading comments...
Comments
0 comments