今次結果清楚見到新一代 GB300 NVL72(Blackwell Ultra) 平台嘅實力。對比返上一代嘅 GB200 NVL72,GB300 喺推理測試入面,每個 token 嘅處理速度最高可以去到 2.77 倍 。而喺今次嘅訓練測試入面,佢嘅訓練吞吐量亦都明顯大幅提升。
NVIDIA 嘅軟件棧功勞都好大。佢哋嘅工程師喺一模一樣嘅硬件上,透過軟件創新(例如全迭代 CUDA graphs 同 CuTe DSL 融合),只係用咗三個月時間,就將 DeepSeek-V3 嘅訓練吞吐量再提升咗 1.3 倍,呢啲就係軟硬件協同設計嘅威力 。
其中 AMD Instinct MI355X 用 MXFP4 嘅表現亦都好有睇頭,喺 Llama 2-70B 模型微調同 Llama 3.1-8B 預訓練呢兩個項目入面,佢同 NVIDIA B200 平台嘅效能差距,分別只係拉近到 5% 同 6% 以內,開始有得競爭 。
要將規模擴展到幾千張 GPU,網絡技術係關鍵。NVIDIA 嘅合作夥伴今次將規模擴展到 8,192 張 Blackwell GPU,背後全靠 Spectrum-X 乙太網絡嘅自適應路由(Adaptive Routing)同擁塞控制(Congestion Control)技術,先至可以應付到 MoE 模型嗰種突發性極強嘅 all-to-all 通訊模式,令到網絡頻寬可以維持喺接近理論值嘅水平 。
NVLink 交換器領域(NVLink-switch domains)同向外擴展網絡架構(scale-out fabric)嘅結合,帶嚟嘅就係全線破紀錄嘅成績。其他值得留意嘅成績包括:
NVIDIA 今次嘅表現,可以話係再次印證咗佢哋喺 AI 訓練領域嘅領導地位,特別係喺處理大規模、極複雜嘅混合專家模型時,由硬件到軟件再到網絡嘅全棧式優勢,短期內真係好難有其他平台可以撼動。
Comments
0 comments