Apa poin penting yang harus divalidasi terlebih dahulu?

NVIDIA memenangkan SELURUH benchmark di MLPerf Training v6.0, menjadi satu satunya platform yang mengirimkan hasil di setiap pengujian dan meraih performa per akselerator tertinggi [3]. Dua beban kerja Mixture of Experts (MoE) baru diperkenalkan, termasuk model raksasa DeepSeek V3 dengan 671 miliar parameter, di mana hanya 37 miliar yang aktif per token [10].

Apa yang harus saya lakukan selanjutnya dalam latihan?

CoreWeave berhasil melatih DeepSeek V3 671B hanya dalam 2,02 menit menggunakan 8.192 GPU NVIDIA GB300 NVL72, menjadikannya yang tercepat di benchmark ini [8].

NVIDIA Kuasai MLPerf Training v6.0: Rekor Baru di Semua Lini, Termasuk Latih Model Raksasa DeepSeek-V3 | Jawaban

studioglobal

NVIDIA meraih kemenangan mutlak (clean sweep), memenangkan seluruh benchmark di MLPerf Training v6.0. Ini termasuk waktu pelatihan tercepat dalam skala besar dan performa per-akselerator tertinggi di ketujuh beban kerja — sekaligus menjadi satu-satunya peserta yang mengikuti semua tes .

Beban Kerja MoE Baru: DeepSeek-V3 671B & GPT-OSS-20B

MLCommons memperkenalkan dua benchmark pra-pelatihan Mixture-of-Experts (MoE) baru: DeepSeek-V3 (total 671 miliar parameter, 37 miliar aktif per token) dan model yang lebih kecil, GPT-OSS-20B .
NVIDIA adalah satu-satunya platform yang mengirimkan hasil untuk kedua benchmark baru ini, menggunakan sistem GB300 NVL72 yang dioptimalkan lewat tumpukan perangkat lunak kustom, CUDA graphs, dan routing MoE canggih .
DeepSeek-V3 sendiri mengusung arsitektur Multi-head Latent Attention (MLA), segmentasi pakar yang sangat rinci (160 routed experts), prediksi multi-token, dan penyeimbangan beban tanpa auxiliary loss .

Rekor CoreWeave untuk DeepSeek-V3

CoreWeave melatih DeepSeek-V3 671B hanya dalam 2,02 menit menggunakan 8.192 GPU NVIDIA GB300 NVL72 — klaster GB300 terbesar di putaran ini — yang berjalan di infrastruktur cloud produksi .
Ini adalah hasil pelatihan DeepSeek-V3 tercepat di benchmark tersebut, dicapai melalui optimasi full-stack yang mencakup lapisan jaringan, orkestrasi, dan penyimpanan .

NVIDIA GB300 NVL72 vs. GB200 NVL72

Sistem GB300 NVL72 (Blackwell Ultra) memberikan peningkatan kecepatan token per detik hingga 2,77x dibandingkan GB200 NVL72 dalam inferensi, dan menunjukkan throughput pelatihan yang jauh lebih tinggi di putaran ini .
Blackwell Ultra diuntungkan oleh anggaran memori dan daya yang lebih besar, sehingga memungkinkan lokalitas model dan throughput yang lebih tinggi dibandingkan GB200 .
Tumpukan perangkat lunak NVIDIA menambahkan keuntungan lebih lanjut: throughput pelatihan DeepSeek-V3 meningkat 1,3x hanya dalam tiga bulan pada perangkat keras yang identik, berkat inovasi perangkat lunak seperti full-iteration CUDA graphs dan CuTe DSL fusions .

Partisipasi & Diversitas Teknis yang Memecahkan Rekor

24 organisasi mengirimkan hasilnya di 95 sistem berbeda menggunakan 13 akselerator perangkat keras yang berbeda .
Putaran ini menampilkan diversitas teknis yang berkembang, mencakup berbagai resep presisi FP4 (termasuk MXFP4 dari AMD) dan kerangka kerja perangkat lunak yang beragam, seperti yang dicatat oleh salah satu ketua MLPerf Training, Shriya Rishab .
AMD Instinct MI355X yang menggunakan MXFP4 menunjukkan performa kompetitif melawan NVIDIA B200 pada fine-tuning Llama 2-70B dan pra-pelatihan Llama 3.1-8B .

Jaringan Skala Besar & Kemenangan Tingkat Sistem

Para mitra NVIDIA berhasil melakukan penskalaan hingga 8.192 GPU Blackwell di seluruh klaster hyperscale, memanfaatkan Spectrum-X Ethernet dengan Adaptive Routing dan Congestion Control untuk mempertahankan bandwidth fabric mendekati teoretis untuk pola komunikasi all-to-all yang bersifat bursty khas MoE .
Kombinasi domain NVLink-switch dan fabric skala besar ini menghasilkan rekor waktu di semua benchmark, termasuk pra-pelatihan Llama 3.1 8B (5,2 menit), fine-tuning Llama 2 70B (0,40 menit), generasi gambar FLUX.1 (12,5 menit), DLRM-DCNv2 (0,71 menit), dan RetinaNet (1,4 menit) .

NVIDIA Kuasai MLPerf Training v6.0: Rekor Baru di Semua Lini, Termasuk Latih Model Raksasa DeepSeek-V3

NVIDIA Kuasai MLPerf Training v6.0: Rekor Baru di Semua Lini, Termasuk Latih Model Raksasa DeepSeek-V3

Beban Kerja MoE Baru: DeepSeek-V3 671B & GPT-OSS-20B

Rekor CoreWeave untuk DeepSeek-V3

NVIDIA GB300 NVL72 vs. GB200 NVL72

Partisipasi & Diversitas Teknis yang Memecahkan Rekor

Jaringan Skala Besar & Kemenangan Tingkat Sistem

Search, cite, and publish your own answer

Orang-orang juga bertanya

Apa jawaban singkat untuk "NVIDIA Kuasai MLPerf Training v6.0: Rekor Baru di Semua Lini, Termasuk Latih Model Raksasa DeepSeek-V3"?

Apa poin penting yang harus divalidasi terlebih dahulu?

Apa yang harus saya lakukan selanjutnya dalam latihan?

Sumber

Comments