最值得優先驗證的重點是什麼？

NVIDIA 在 MLPerf Training v6.0 達成全壘打清盤，唯一提交全部 7 項基準測試的平台，同時拿下「最快大規模訓練時間」與「最高單加速器效能」[3]。 MLCommons 首次加入兩個混合專家 (MoE) 預訓練基準：DeepSeek V3（總參數 6,710 億）與 GPT OSS 20B，反映業界主流模型趨勢 [3][10]。

接下來在實務上該怎麼做？

CoreWeave 以 8,192 顆 NVIDIA GB300 NVL72 GPU，僅花 2.02 分鐘完成 DeepSeek V3 671B 目標品質訓練，創下本輪最快紀錄 [8][26]。

NVIDIA 如何以 Blackwell 平台橫掃 MLPerf Training v6.0？關鍵數據與技術一次看 | 答案

studioglobal

NVIDIA 的全圈勝利：MLPerf Training v6.0 總覽

NVIDIA 在最新的 MLPerf Training v6.0 基準測試中繳出壓倒性成績，不僅是唯一提交所有七項測試的平台，更一舉囊括「最快大規模訓練時間」與「最高單加速器效能」兩大指標的全面領先。

本輪測試由業界聯盟 MLCommons 主持，共有 24 個組織提交、涵蓋 95 套不同系統與 13 種硬體加速器，技術多樣性明顯提升。然而，NVIDIA 的 Blackwell 平台仍是唯一能完整覆蓋所有新舊任務的選手。

新加入的 MoE 基準：DeepSeek-V3 671B 與 GPT-OSS-20B

MLCommons 首度將混合專家 (Mixture-of-Experts, MoE) 架構納入正規訓練基準，反映當前大型語言模型的主流趨勢。

DeepSeek-V3（總參數 6,710 億，每個 token 激活 370 億參數）

採用多頭潛在注意力 (MLA)、細顆粒專家分割（160 個路由專家）、多 token 預測及無輔助損失負載平衡等先進技術。
任務定義為「大語言模型預訓練」，使用 C4 資料集與 Llama-3 相容分詞器，序列長度為 4,096 tokens 。

GPT-OSS-20B

較小規模的 MoE 基準，同樣用於衡量硬體與軟體堆疊在稀疏模型上的訓練效率。

NVIDIA 是唯一同時提交這兩項新基準的平台，並以 GB300 NVL72 系統搭配客製化軟體堆疊、CUDA graphs 及進階 MoE 路由技術，建立初期性能標竿。

CoreWeave 的 DeepSeek-V3 紀錄：2.02 分鐘的雲端預訓練

在本輪 MLPerf 中，CoreWeave 使用了高達 8,192 顆 NVIDIA GB300 NVL72 GPU，這是該輪提交中規模最大的 GB300 叢集，運行在與客戶相同的生產雲端基礎架構上。

2.02 分鐘達成 DeepSeek-V3 671B 的目標品質，創下本輪最快紀錄。
同套架構在 4,096 顆 GPU 上訓練時間為 3.09 分鐘，2,048 顆 GPU 上為 5.54 分鐘，展現良好的擴展性。
這項成績來自網路、編排層、儲存層的「全堆疊」優化，而非僅靠單一硬體規格。

GB300 NVL72 vs. GB200 NVL72：Blackwell Ultra 的世代躍進

硬體規格紅利

GB300 NVL72 (Blackwell Ultra) 擁有更大的記憶體與供電預算，使模型能在單一 NVLink 交換域內獲得更高的局部性與吞吐量。
在推論任務上，GB300 NVL72 相較前代 GB200 NVL72 的 token 吞吐量提升可達 2.77 倍 。
在相同規模下，GB300 NVL72 的訓練速度也比 GB200 NVL72 快上 1.6 倍 。

軟體疊代加速

在相同硬體上，透過全迭代 CUDA graphs 與 CuTe DSL 融合等軟體創新，DeepSeek-V3 的訓練吞吐量在短短三個月內進一步提升 1.3 倍 。
這顯示 NVIDIA 的軟硬體協同設計 (co-design) 能持續在已部署系統上榨出額外效能。

擴展網路與系統級勝利

NVIDIA 的合作夥伴將 Blackwell GPU 規模推至 8,192 顆，並導入 Spectrum-X 乙太網路，透過自適應路由與壅塞控制來應對 MoE 模型突發的 all-to-all 通訊模式。

結合 NVLink 交換域與橫向擴展網路，NVIDIA 在所有基準皆創下紀錄級時間：

基準測試	訓練時間
Llama 3.1 8B 預訓練	5.2 分鐘
Llama 2 70B 微調 (LoRA)	0.40 分鐘
FLUX.1 圖像生成	12.5 分鐘
DLRM-DCNv2 推薦系統	0.71 分鐘
RetinaNet 物件偵測	1.4 分鐘
圖神經網路 (R-GAT)	0.84 分鐘

競爭風貌：AMD 的 MXFP4 與多元生態

本輪亦展現了持續擴大的技術多樣性。值得關注的是：

AMD Instinct MI355X 使用 MXFP4 精度，在 Llama 2-70B 微調與 Llama 3.1-8B 預訓練兩項任務上，與 NVIDIA B200 平台的效能差距縮小到 5%–6% 。
24 個提交組織中包含多家雲端服務商與系統廠，涵蓋從 H200 SXM 到 Blackwell Ultra 的多代硬體。

總結：Blackwell 時代的訓練新標準

MLPerf Training v6.0 不僅見證了 NVIDIA Blackwell 平台在規模與單加速器效能上的雙重統治，更透過 DeepSeek-V3 等 MoE 基準，將產業關注焦點推向大規模稀疏模型的實際訓練效率。

從硬體的記憶體容量躍升，到軟體堆疊在數月內帶來的 1.3 倍吞吐增益，再到 Spectrum-X 乙太網路對 MoE 通訊模式的適配，這一系列成果反映出 AI 訓練已進入一個由系統級設計驅動、持續快速疊代的新階段。

NVIDIA 如何以 Blackwell 平台橫掃 MLPerf Training v6.0？關鍵數據與技術一次看