Nvidia Sapu Bersih MLPerf Training v6.0, Latih DeepSeek-V3 671B dalam 2 Minit
Nvidia mencapai 'clean sweep', memenangi setiap penanda aras dalam MLPerf Training v6.0 dengan masa latihan terpantas dan prestasi per pemecut tertinggi [3]. MLCommons memperkenalkan dua penanda aras baharu 'mixture of experts' (MoE): DeepSeek V3 (671B parameter) dan GPT OSS 20B, dan Nvidia adalah satu satunya platf...
What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell plaNVIDIA's Blackwell platform set new performance records across all MLPerf Training v6.0 benchmarks, driven by the powerful GB300 NVL72 system.
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell pla. Article summary: ## MLPerf Training v6.0 Key Highlights. Topic tags: general, documentation, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "Home ยป News ยป NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. # NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. NVIDIA has publish" source context "NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform - StorageReview.com" Reference image 2: visual subject "# MLPerf Inference v6.0 Results Explained: GPU Performance Rankings for AI Workloads (2026). MLPerf Inference v6.0 results dropped April 1, 2026, and
openai.com
Sorotan Utama MLPerf Training v6.0
Nvidia mencapai kemenangan sempurna, memenangi setiap penanda aras dalam MLPerf Training v6.0, termasuk masa latihan terpantas pada skala besar dan prestasi per-pemecut tertinggi merentas kesemua tujuh beban kerja โ satu-satunya peserta yang menyertai setiap ujian .
Beban Kerja MoE Baharu (DeepSeek-V3 671B & GPT-OSS-20B)
MLCommons memperkenalkan dua penanda aras pra-latihan mixture-of-experts (MoE) baharu: DeepSeek-V3 (671 bilion jumlah parameter, 37 bilion diaktifkan setiap token) dan GPT-OSS-20B yang lebih kecil .
Nvidia merupakan satu-satunya platform yang menghantar keputusan untuk kedua-dua penanda aras baharu ini, menggunakan sistem GB300 NVL72 yang dioptimumkan melalui tindanan perisian tersuai, CUDA graphs, dan penghalaan MoE termaju .
DeepSeek-V3 menggunakan Multi-head Latent Attention (MLA), pembahagian pakar terperinci (160 pakar dirutekan), ramalan berbilang token, dan pengimbangan beban tanpa kehilangan tambahan (auxiliary-loss-free load balancing) .
Studio Global AI
Search, cite, and publish your own answer
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
What is the short answer to "Nvidia Sapu Bersih MLPerf Training v6.0, Latih DeepSeek-V3 671B dalam 2 Minit"?
Nvidia mencapai 'clean sweep', memenangi setiap penanda aras dalam MLPerf Training v6.0 dengan masa latihan terpantas dan prestasi per pemecut tertinggi [3].
What are the key points to validate first?
Nvidia mencapai 'clean sweep', memenangi setiap penanda aras dalam MLPerf Training v6.0 dengan masa latihan terpantas dan prestasi per pemecut tertinggi [3]. MLCommons memperkenalkan dua penanda aras baharu 'mixture of experts' (MoE): DeepSeek V3 (671B parameter) dan GPT OSS 20B, dan Nvidia adalah satu satunya platform yang menghantar keputusan untuk kedua duanya [3][10].
What should I do next in practice?
CoreWeave melatih model gergasi DeepSeek V3 671B dalam hanya 2.02 minit menggunakan 8,192 GPU Nvidia GB300 NVL72, menjadikannya keputusan terpantas dalam pusingan ini [8].
CoreWeave melatih DeepSeek-V3 671B dalam masa 2.02 minit menggunakan 8,192 GPU Nvidia GB300 NVL72 โ kluster GB300 terbesar dalam pusingan ini โ berjalan di atas infrastruktur awan produksi .
Ini adalah keputusan latihan DeepSeek-V3 terpantas dalam penanda aras tersebut, dicapai melalui pengoptimuman menyeluruh merentasi lapisan rangkaian, orkestrasi, dan storan .
Nvidia GB300 NVL72 lwn. GB200 NVL72
Sistem GB300 NVL72 (Blackwell Ultra) memberikan peningkatan kelajuan token sesaat sehingga 2.77x ganda berbanding GB200 NVL72 dalam inferens, dan menunjukkan daya pemprosesan latihan yang jauh lebih tinggi dalam pusingan ini .
Blackwell Ultra mendapat manfaat daripada bajet memori dan kuasa yang lebih besar, membolehkan lokaliti model dan daya pemprosesan lebih tinggi berbanding GB200 .
Tindanan perisian Nvidia menambah lonjakan selanjutnya: daya pemprosesan latihan DeepSeek-V3 meningkat sebanyak 1.3x ganda dalam masa tiga bulan sahaja pada perkakasan serupa melalui inovasi perisian seperti CUDA graphs lelaran penuh dan gabungan CuTe DSL .
Penyertaan Rekod & Kepelbagaian Teknikal
24 organisasi menghantar keputusan merentasi 95 sistem berbeza menggunakan 13 pemecut perkakasan yang berbeza.
Pusingan ini menyaksikan kepelbagaian teknikal yang semakin meningkat meliputi pelbagai resipi ketepatan FP4 (termasuk MXFP4 dari AMD) dan pelbagai kerangka kerja perisian, seperti yang dinyatakan oleh pengerusi bersama MLPerf Training, Shriya Rishab .
AMD Instinct MI355X yang menggunakan MXFP4 memberikan prestasi kompetitif berbanding Nvidia B200 pada penalaan halus Llama 2-70B dan pra-latihan Llama 3.1-8B .
Rangkaian Skala Luas & Kemenangan Peringkat Sistem
Rakan kongsi Nvidia mencapai skala 8,192 GPU Blackwell merentasi kluster hiperskala, memanfaatkan Spectrum-X Ethernet dengan Penghalaan Adaptif dan Kawalan Kesesakan untuk mengekalkan jalur lebar fabrik hampir-teoretikal bagi corak komunikasi all-to-all yang bersifat letusan (bursty) untuk MoE .
Gabungan domain suis NVLink dan fabrik skala luas ini mencatat masa rekod dalam semua penanda aras, termasuk pra-latihan Llama 3.1 8B (5.2 minit), penalaan halus Llama 2 70B (0.40 minit), penjanaan imej FLUX.1 (12.5 minit), DLRM-DCNv2 (0.71 minit), dan RetinaNet (1.4 minit) .
investors.coreweave.comCoreWeave Delivers Leading Inference Performance in MLPerf ...
Comments
0 comments