NVIDIA 在最新的 MLPerf Training v6.0 基準測試中繳出壓倒性成績,不僅是唯一提交所有七項測試的平台,更一舉囊括「最快大規模訓練時間」與「最高單加速器效能」兩大指標的全面領先 。
本輪測試由業界聯盟 MLCommons 主持,共有 24 個組織提交、涵蓋 95 套不同系統與 13 種硬體加速器,技術多樣性明顯提升 。然而,NVIDIA 的 Blackwell 平台仍是唯一能完整覆蓋所有新舊任務的選手
。
MLCommons 首度將混合專家 (Mixture-of-Experts, MoE) 架構納入正規訓練基準,反映當前大型語言模型的主流趨勢 。
NVIDIA 是唯一同時提交這兩項新基準的平台,並以 GB300 NVL72 系統搭配客製化軟體堆疊、CUDA graphs 及進階 MoE 路由技術,建立初期性能標竿 。
在本輪 MLPerf 中,CoreWeave 使用了高達 8,192 顆 NVIDIA GB300 NVL72 GPU,這是該輪提交中規模最大的 GB300 叢集,運行在與客戶相同的生產雲端基礎架構上 。
NVIDIA 的合作夥伴將 Blackwell GPU 規模推至 8,192 顆,並導入 Spectrum-X 乙太網路,透過自適應路由與壅塞控制來應對 MoE 模型突發的 all-to-all 通訊模式 。
結合 NVLink 交換域與橫向擴展網路,NVIDIA 在所有基準皆創下紀錄級時間 :
| 基準測試 | 訓練時間 |
|---|---|
| Llama 3.1 8B 預訓練 | 5.2 分鐘 |
| Llama 2 70B 微調 (LoRA) | 0.40 分鐘 |
| FLUX.1 圖像生成 | 12.5 分鐘 |
| DLRM-DCNv2 推薦系統 | 0.71 分鐘 |
| RetinaNet 物件偵測 | 1.4 分鐘 |
| 圖神經網路 (R-GAT) | 0.84 分鐘 |
本輪亦展現了持續擴大的技術多樣性。值得關注的是:
MLPerf Training v6.0 不僅見證了 NVIDIA Blackwell 平台在規模與單加速器效能上的雙重統治,更透過 DeepSeek-V3 等 MoE 基準,將產業關注焦點推向大規模稀疏模型的實際訓練效率。
從硬體的記憶體容量躍升,到軟體堆疊在數月內帶來的 1.3 倍吞吐增益,再到 Spectrum-X 乙太網路對 MoE 通訊模式的適配,這一系列成果反映出 AI 訓練已進入一個由系統級設計驅動、持續快速疊代的新階段。
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
NVIDIA 在 MLPerf Training v6.0 達成全壘打清盤,唯一提交全部 7 項基準測試的平台,同時拿下「最快大規模訓練時間」與「最高單加速器效能」[3]。
NVIDIA 在 MLPerf Training v6.0 達成全壘打清盤,唯一提交全部 7 項基準測試的平台,同時拿下「最快大規模訓練時間」與「最高單加速器效能」[3]。 MLCommons 首次加入兩個混合專家 (MoE) 預訓練基準:DeepSeek V3(總參數 6,710 億)與 GPT OSS 20B,反映業界主流模型趨勢 [3][10]。
CoreWeave 以 8,192 顆 NVIDIA GB300 NVL72 GPU,僅花 2.02 分鐘完成 DeepSeek V3 671B 目標品質訓練,創下本輪最快紀錄 [8][26]。
Loading comments...
Comments
0 comments