NVIDIA meraih kemenangan mutlak (clean sweep), memenangkan seluruh benchmark di MLPerf Training v6.0. Ini termasuk waktu pelatihan tercepat dalam skala besar dan performa per-akselerator tertinggi di ketujuh beban kerja โ sekaligus menjadi satu-satunya peserta yang mengikuti semua tes
.
Beban Kerja MoE Baru: DeepSeek-V3 671B & GPT-OSS-20B
- MLCommons memperkenalkan dua benchmark pra-pelatihan Mixture-of-Experts (MoE) baru: DeepSeek-V3 (total 671 miliar parameter, 37 miliar aktif per token) dan model yang lebih kecil, GPT-OSS-20B
![]()
.
- NVIDIA adalah satu-satunya platform yang mengirimkan hasil untuk kedua benchmark baru ini, menggunakan sistem GB300 NVL72 yang dioptimalkan lewat tumpukan perangkat lunak kustom, CUDA graphs, dan routing MoE canggih
.
- DeepSeek-V3 sendiri mengusung arsitektur Multi-head Latent Attention (MLA), segmentasi pakar yang sangat rinci (160 routed experts), prediksi multi-token, dan penyeimbangan beban tanpa auxiliary loss
.
Rekor CoreWeave untuk DeepSeek-V3
- CoreWeave melatih DeepSeek-V3 671B hanya dalam 2,02 menit menggunakan 8.192 GPU NVIDIA GB300 NVL72 โ klaster GB300 terbesar di putaran ini โ yang berjalan di infrastruktur cloud produksi
![]()
.
- Ini adalah hasil pelatihan DeepSeek-V3 tercepat di benchmark tersebut, dicapai melalui optimasi full-stack yang mencakup lapisan jaringan, orkestrasi, dan penyimpanan
.
NVIDIA GB300 NVL72 vs. GB200 NVL72
- Sistem GB300 NVL72 (Blackwell Ultra) memberikan peningkatan kecepatan token per detik hingga 2,77x dibandingkan GB200 NVL72 dalam inferensi, dan menunjukkan throughput pelatihan yang jauh lebih tinggi di putaran ini
![]()
.
- Blackwell Ultra diuntungkan oleh anggaran memori dan daya yang lebih besar, sehingga memungkinkan lokalitas model dan throughput yang lebih tinggi dibandingkan GB200
.
- Tumpukan perangkat lunak NVIDIA menambahkan keuntungan lebih lanjut: throughput pelatihan DeepSeek-V3 meningkat 1,3x hanya dalam tiga bulan pada perangkat keras yang identik, berkat inovasi perangkat lunak seperti full-iteration CUDA graphs dan CuTe DSL fusions
.
Partisipasi & Diversitas Teknis yang Memecahkan Rekor
- 24 organisasi mengirimkan hasilnya di 95 sistem berbeda menggunakan 13 akselerator perangkat keras yang berbeda
.
- Putaran ini menampilkan diversitas teknis yang berkembang, mencakup berbagai resep presisi FP4 (termasuk MXFP4 dari AMD) dan kerangka kerja perangkat lunak yang beragam, seperti yang dicatat oleh salah satu ketua MLPerf Training, Shriya Rishab
![]()
.
- AMD Instinct MI355X yang menggunakan MXFP4 menunjukkan performa kompetitif melawan NVIDIA B200 pada fine-tuning Llama 2-70B dan pra-pelatihan Llama 3.1-8B
.
Jaringan Skala Besar & Kemenangan Tingkat Sistem
- Para mitra NVIDIA berhasil melakukan penskalaan hingga 8.192 GPU Blackwell di seluruh klaster hyperscale, memanfaatkan Spectrum-X Ethernet dengan Adaptive Routing dan Congestion Control untuk mempertahankan bandwidth fabric mendekati teoretis untuk pola komunikasi all-to-all yang bersifat bursty khas MoE
.
- Kombinasi domain NVLink-switch dan fabric skala besar ini menghasilkan rekor waktu di semua benchmark, termasuk pra-pelatihan Llama 3.1 8B (5,2 menit), fine-tuning Llama 2 70B (0,40 menit), generasi gambar FLUX.1 (12,5 menit), DLRM-DCNv2 (0,71 menit), dan RetinaNet (1,4 menit)
.
Comments
0 comments