Modellen DeepSeek-V3 benytter seg av flere tekniske nyvinninger for å oppnå sin effektivitet, inkludert Multi-head Latent Attention (MLA), finkornet ekspertsegmentering (160 rutete eksperter), fler-token-prediksjon og en lastbalansering fri for hjelpefunksjonstap .
Skyleverandøren CoreWeave, som spesialiserer seg på KI-infrastruktur, leverte kanskje det mest oppsiktsvekkende resultatet i denne runden. De fullførte en trening av den enorme DeepSeek-V3 671B-modellen på forbløffende 2,02 minutter. Dette ble gjort ved hjelp av en massiv klynge bestående av 8.192 NVIDIA GB300 NVL72 GPU-er, den største GB300-klyngen i hele konkurransen, og alt kjørte på deres produksjonsklare sky-infrastruktur .
Dette var den desidert raskeste DeepSeek-V3-treningen i referansetesten, oppnådd gjennom optimaliseringer i hele teknologistakken – fra nettverk og orkestrering til lagring .
Resultatene dokumenterer et solid ytelseshopp fra NVIDIA Blackwell (GB200) til den nye Blackwell Ultra-plattformen (GB300).
MLPerf Training v6.0 var den største og mest mangfoldige runden til nå, med 24 organisasjoner som sendte inn resultater fra 95 ulike systemer med 13 forskjellige maskinvareakseleratorer .
Ifølge MLPerf Trainings nestleder, Shriya Rishab, viste runden et voksende teknisk mangfold med flere oppskrifter for FP4-presisjon (inkludert MXFP4 fra AMD) og varierte programvarerammeverk . Spesielt AMD leverte konkurransedyktige resultater med sin Instinct MI355X-brikke, som ved bruk av MXFP4 var innenfor 5 % av NVIDIAs B200 på finjustering av Llama 2-70B og innenfor 6 % på forhåndstrening av Llama 3.1-8B
.
For å oppnå resultater i denne skalaen er nettverksytelse kritisk, spesielt for MoE-modeller med sine eksplosive all-til-all-kommunikasjonsmønstre. NVIDIAs partnere skalerte til 8.192 Blackwell GPU-er på tvers av hyperskala-klynger ved hjelp av Spectrum-X Ethernet med adaptiv ruting og kø-kontroll. Dette opprettholdt en båndbredde nær det teoretiske maksimum for strukturen .
Kombinasjonen av NVLink-svitsjdomener og skaleringsstrukturen leverte rekordtider på tvers av alle referanser:
Comments
0 comments