NVIDIAがMLPerf Training v6.0の全7ベンチマークで最速タイムを記録し、完全制覇を達成。1アクセラレータあたりの性能でも全ワークロードでトップとなり、唯一全てのテストにエントリーしたプラットフォームとなった [3]。 新たなベンチマークとして、DeepSeek V3(総パラメータ数671B、トークンごとに37Bがアクティブ)とGPT OSS 20Bという2つのMixture of Experts (MoE) 事前学習ワークロードが導入された [3][10]。

Create a landscape editorial hero image for this Studio Global article: What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell pla. Article summary: ## MLPerf Training v6.0 Key Highlights. Topic tags: general, documentation, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "Home » News » NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. # NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. NVIDIA has publish" source context "NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform - StorageReview.com" Reference image 2: visual subject "# MLPerf Inference v6.0 Results Explained: GPU Performance Rankings for AI Workloads (2026). MLPerf Inference v6.0 results dropped April 1, 2026, and
NVIDIAはMLPerf Training v6.0において、全7つの業界標準AIトレーニングベンチマークで最速を記録する「完全制覇」を達成しました。大規模学習における最速タイムだけでなく、アクセラレータ1基あたりの性能でも全ワークロードでトップとなり、唯一全てのテストにエントリーしたプラットフォームとして、その総合力を見せつけました 。
今回のラウンドでは、MLCommonsによって2つの新しいMixture-of-Experts (MoE) 事前学習ベンチマークが追加されました。1つは DeepSeek-V3(総パラメータ数671B、トークンごとに37Bがアクティブ) 、もう1つはより小規模な GPT-OSS-20B です 。
DeepSeek-V3は、マルチヘッド潜在アテンション(MLA)、160のルーテッドエキスパートによるファイングレインな専門家分割、マルチトークン予測、補助損失なしの負荷分散といった最先端技術を採用しており、そのアーキテクチャはベンチマークの難易度を大きく引き上げました 。
NVIDIAは、72基のBlackwell Ultra GPUを接続する「GB300 NVL72」システムを投入し、カスタムソフトウェアスタック、CUDAグラフ、高度なMoEルーティングによる最適化を施すことで、これら2つの新ベンチマークの両方に結果を提出した唯一のプラットフォームとなりました 。
クラウドインフラストラクチャ企業のCoreWeaveは、8,192基のNVIDIA GB300 NVL72 GPU(2,048ノード)という、本ラウンドで最大のGB300クラスタを用いて、DeepSeek-V3 671Bの学習をわずか2.02分で完了しました 。これは、実際に顧客が利用可能な本番クラウドインフラ上で達成されたものであり、ネットワーキング、オーケストレーション、ストレージレイヤーにわたるフルスタックの最適化の賜物です
。
この記録は、大規模MoEモデルの学習効率における新たな基準点となりました。
NVIDIAの最新プラットフォームである GB300 NVL72(Blackwell Ultra) は、前世代のGB200 NVL72と比較して、その性能向上が際立っています。
この性能向上は、より大容量のメモリと電力バジェットによって、モデルの局所性とスループットが向上したことによるものです 。さらに、NVIDIAのソフトウェアスタックの進化も大きな役割を果たしています。DeepSeek-V3のトレーニングスループットは、同一ハードウェア上で、わずか3カ月のソフトウェア革新(完全反復CUDAグラフやCuTe DSLフュージョンなど)によって1.3倍も向上しました
。
MLPerf Training v6.0には、24の組織が参加し、13種類の異なるハードウェアアクセラレータを使用した95もの異なるシステムで結果が提出されました 。
MLPerf Training共同議長のShriya Rishab氏が指摘するように、今回のラウンドでは、AMDのMXFP4を含む複数のFP4精度レシピや多様なソフトウェアフレームワークが用いられ、技術的な多様性が大きく広がりました 。
中でも注目されたのは、AMDのInstinct MI355Xです。MXFP4データタイプを使用し、Llama 2-70BのファインチューニングとLlama 3.1-8Bの事前学習において、NVIDIA B200プラットフォームと競合しうる性能を示しました(Llama 2-70Bで5%差、Llama 3.1-8Bで6%差に迫る) 。
NVIDIAのパートナー各社は、ハイパースケールクラスタにおいて最大8,192基のBlackwell GPUまでスケールし、その性能を遺憾なく発揮しました。この大規模分散学習を支えたのが、Spectrum-X Ethernetです。MoEモデルの通信パターンに特有のバースト性の高いAll-to-All通信に対しても、アダプティブルーティングと輻輳制御によって、理論値に近いファブリック帯域幅を維持しました 。
NVLinkスイッチドメインとスケールアウトファブリックの組み合わせにより、すべてのベンチマークで記録的なタイムが達成されました。具体的な数値は以下の通りです 。
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
NVIDIAがMLPerf Training v6.0の全7ベンチマークで最速タイムを記録し、完全制覇を達成。1アクセラレータあたりの性能でも全ワークロードでトップとなり、唯一全てのテストにエントリーしたプラットフォームとなった [3]。
NVIDIAがMLPerf Training v6.0の全7ベンチマークで最速タイムを記録し、完全制覇を達成。1アクセラレータあたりの性能でも全ワークロードでトップとなり、唯一全てのテストにエントリーしたプラットフォームとなった [3]。 新たなベンチマークとして、DeepSeek V3(総パラメータ数671B、トークンごとに37Bがアクティブ)とGPT OSS 20Bという2つのMixture of Experts (MoE) 事前学習ワークロードが導入された [3][10]。
NVIDIAは、カスタムソフトウェアスタックやCUDAグラフ、高度なMoEルーティングにより最適化されたGB300 NVL72システムを用い、これら2つの新ベンチマークの両方に唯一結果を提出した [3]。
Loading comments...
Comments
0 comments