Nvidia byla jedinou platformou, která odevzdala výsledky pro obě tyto nové zátěže, a to pomocí systému GB300 NVL72 optimalizovaného vlastními softwarovými nástroji, CUDA grafy a pokročilým směrováním expertů .
Největší pozornost na sebe strhl cloudový provider CoreWeave, který dosáhl historického rekordu. Na své produkční cloudové infrastruktuře, dostupné i běžným zákazníkům, vytrénoval model DeepSeek-V3 671B za pouhé 2,02 minuty .
Tento ohromující výkon byl dosažen na clust eru čítajícím 8 192 GPU Nvidia GB300 NVL72, což bylo největší nasazení této platformy v celém kole . CoreWeave těžil z komplexních optimalizací napříč celým stackem – od síťové vrstvy přes orchestraci až po úložiště
. Pro srovnání, stejný model zvládl vytrénovat na 4 096 GPU za 3,09 minuty a na 2 048 GPU za 5,54 minuty
.
Výsledky jasně ukázaly výkonnostní přírůstek nové architektury Blackwell Ultra oproti předchozí generaci.
Dominance Nvidie a jejích partnerů se propsala i do dalších benchmarků. GB300 NVL72 dosáhl rekordních časů napříč celým spektrem úloh :
Tyto výsledky byly umožněny i díky pokročilé síťové infrastruktuře. Partneři Nvidie využívali Spectrum-X Ethernet s adaptivním směrováním a kontrolou zahlcení, který je klíčový pro nárazovou komunikaci typu all-to-all, typickou pro MoE modely .
I když Nvidia dominovala, AMD ukázalo, že není bez šance. Jeho akcelerátory Instinct MI355X s přesností MXFP4 dosáhly konkurenceschopných výsledků proti platformě Nvidia B200. V úloze doladění Llama 2-70B zaostaly jen o 5 % a v předtrénování Llama 3.1-8B o 6 % .
MLPerf Training v6.0 jasně ukázal, že architektura Nvidia Blackwell Ultra nastavuje nový standard pro trénování AI modelů. Ať už jde o surový výkon na jedno GPU, nebo o škálování na tisíce akcelerátorů, platforma Nvidia v současnosti nemá v těchto benchmarcích konkurenci. Zavedení realistických MoE zátěží, jako je DeepSeek-V3, navíc poskytuje firmám mnohem relevantnější data pro rozhodování o infrastruktuře pro nejnovější generaci AI modelů.
Comments
0 comments