答案已发布2周前Last edited 2周前20 来源

NVIDIA Blackwell横扫MLPerf Training v6.0：DeepSeek-V3 671B两分钟训练纪录诞生

NVIDIA在MLPerf Training v6.0中大获全胜，凭借Blackwell平台成为唯一提交全部7项测试的厂商，并包揽所有项目的冠军 [3]。 MLCommons首次引入了两个全新的混合专家（MoE）模型预训练基准：DeepSeek V3（总参数6710亿，单Token激活370亿）和GPT OSS 20B，NVIDIA是唯一在这两个新基准上都提交了成绩的平台 [3][10]。

使用 Studio Global AI 搜索并核查事实浏览更多热门页面

440K0

NVIDIA Blackwell Ultra GPUs powering record-breaking MLPerf Training v6.0 results for massive AI models. — What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell plaNVIDIA's Blackwell platform set new performance records across all MLPerf Training v6.0 benchmarks, driven by the powerful GB300 NVL72 system.
AI 提示
Create a landscape editorial hero image for this Studio Global article: What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell pla. Article summary: ## MLPerf Training v6.0 Key Highlights. Topic tags: general, documentation, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "Home » News » NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. # NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. NVIDIA has publish" source context "NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform - StorageReview.com" Reference image 2: visual subject "# MLPerf Inference v6.0 Results Explained: GPU Performance Rankings for AI Workloads (2026). MLPerf Inference v6.0 results dropped April 1, 2026, and
openai.com

MLPerf Training v6.0 核心亮点

NVIDIA在MLPerf Training v6.0中取得了压倒性胜利，包揽了所有基准测试的冠军。无论是在规模化训练的最短耗时，还是单加速器的最高性能上，NVIDIA都一骑绝尘，并且是唯一一家在所有7个项目中都提交了成绩的厂商。

全新混合专家模型（MoE）工作负载登场

本轮测试的一个重大看点，是MLCommons引入了两个全新的混合专家模型（MoE）预训练基准，这标志着AI基准测试正紧跟产业前沿趋势。

DeepSeek-V3 (671B)：这是一个巨无霸级的大规模预训练模型。虽然总参数量高达6710亿，但得益于MoE架构，每个Token只会激活其中约370亿个参数。该模型采用了多头潜在注意力（MLA）、精细化专家分割（共160个路由专家）、多Token预测以及无辅助损失的负载均衡等一系列先进技术，旨在以极高的效率完成大规模训练。
GPT-OSS-20B：相比之下，这是一个规模小得多的MoE模型，为参与者提供了另一个维度的性能对比平台。

NVIDIA是唯一一个在这两项新基准上都提交了成绩的平台。 他们使用GB300 NVL72系统，通过定制的软件堆栈、CUDA图（CUDA Graphs）和先进的MoE路由策略，树立了全新的性能标杆。

CoreWeave的破纪录表现：2.02分钟训练DeepSeek-V3

云服务提供商CoreWeave在本轮测试中打出了最响亮的一枪。

惊人速度：CoreWeave 仅用2.02分钟就完成了DeepSeek-V3 671B模型的训练任务。
超大规模集群：这项纪录是在由8192颗NVIDIA GB300 NVL72 GPU组成的庞大集群上实现的，这也是本轮提交中规模最大的GB300集群。
生产级环境：重要的是，这一成绩是在CoreWeave已经面向客户开放的、相同的云基础设施上达成的，充分证明了其系统在真实生产环境下的实力。

这一纪录并非单纯堆砌硬件的结果，而是通过从网络、资源调度到存储的全栈深度优化才得以实现。

NVIDIA GB300 vs. GB200：Blackwell Ultra 的代际飞跃

本轮测试清晰展示了NVIDIA最新的Blackwell Ultra平台（GB300 NVL72）相较于上一代Blackwell（GB200 NVL72）的巨大进步。

训练性能：在同等规模下，GB300 NVL72的训练速度比GB200 NVL72快了1.6倍。这主要得益于Blackwell Ultra更大的显存和功耗预算，让模型能够实现更高的本地化计算和数据吞吐量。
推理性能：在早前的MLPerf Inference v6.0测试中，面对DeepSeek-R1模型等要求苛刻的推理任务，GB300 NVL72的Token生成吞吐量更是达到了GB200 NVL72的2.77倍 。
软件加持：性能提升不仅来自硬件。NVIDIA的软件生态也功不可没。仅通过迭代完整的CUDA图和CuTe DSL融合等软件创新，在完全相同的硬件上，DeepSeek-V3的训练吞吐量在短短三个月内就额外提升了30% 。

空前的参与度与技术多样性

本轮MLPerf Training v6.0不仅见证了性能的飞跃，也反映了整个行业的蓬勃发展。

创纪录的参与者：共有24家组织提交了测试结果，涵盖了95种不同的系统配置和13种不同的硬件加速器，竞争格局空前多元。
百花齐放的技术路线：MLPerf Training联合主席Shriya Rishab指出，本轮测试展现了日益丰富的技术多样性，特别是出现了多种FP4精度方案（包括AMD的MXFP4）和不同的软件框架。
AMD的竞争力：AMD凭借其Instinct MI355X GPU和MXFP4精度，在Llama 2-70B微调和Llama 3.1-8B预训练两个项目中，展现出了与NVIDIA B200一较高下的实力，性能差距分别缩小到了5%和6%以内。

系统级胜利：超大规模网络与全栈优化

要驯服拥有6710亿参数的DeepSeek-V3这类MoE巨兽，单靠强大的GPU是不够的，卓越的网络和系统级设计至关重要。

Spectrum-X以太网：NVIDIA的合作伙伴将集群规模扩展到了8192颗Blackwell GPU，并利用Spectrum-X以太网平台的自适应路由（Adaptive Routing）和拥塞控制（Congestion Control）技术，来应对MoE模型中频繁、突发的all-to-all通信模式，确保了接近理论极限的交换带宽。
其他基准测试记录：在NVLink交换域和横向扩展网络的结合下，NVIDIA平台在所有基准测试中都创下了纪录，包括：Llama 3.1 8B预训练（5.2分钟）、Llama 2 70B微调（0.40分钟）、FLUX.1图像生成（12.5分钟）、DLRM-DCNv2推荐系统（0.71分钟）和RetinaNet目标检测（1.4分钟）。

MLPerf Training v6.0的结果有力地证明，在AI训练这个领域，极致的系统设计与软硬件协同优化，正成为推动大模型技术民主化和应用落地的核心引擎。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

人们还问