En av rundans största snackisar stod CoreWeave för. Molnleverantören tränade DeepSeek-V3 671B på 2,02 minuter – ja, du läste rätt – med hjälp av 8 192 stycken Nvidia GB300 NVL72-GPU:er. Det var den största GB300-klustret i den här omgången, och allt kördes på CoreWeaves ordinarie produktionsmoln .
Resultatet var det snabbaste DeepSeek-V3-resultatet i hela benchmarken, vilket uppnåddes genom optimeringar i flera lager: allt från nätverk och orkestrering till lagring .
Nvidias nya GB300 NVL72 (Blackwell Ultra) visar tydligt vad nästa generations hårdvara går för:
Intresset för MLPerf fortsätter att växa. I den här rundan deltog:
Den tekniska mångfalden ökar också. Vi ser nu flera olika recept för FP4-precision (inklusive MXFP4 från AMD) och olika mjukvaruramverk, vilket MLPerf Training-medordföranden Shriya Rishab lyfte fram .
AMD:s Instinct MI355X med MXFP4-precision visade konkurrenskraftiga resultat mot Nvidia B200 på finjustering av Llama 2-70B och förträning av Llama 3.1-8B .
För att hantera den enorma skalan krävs mer än bara snabba GPU:er. Nvidias partners skalade upp till 8 192 Blackwell-GPU:er i hyperskala-kluster och drog nytta av Spectrum-X Ethernet med adaptiv routing och överbelastningskontroll. Detta säkerställde att nätverkskapaciteten hölls nära teoretiskt maximum även för MoE-modellers ”burstiga” all-till-all-kommunikation .
Kombinationen av NVLink-switchdomäner och skalbart nätverk gav rekordtider över hela linjen, inklusive:
Comments
0 comments