Käytännössä tämä tarkoittaa, että malli osaa käyttää vain murto-osaa valtavasta parametrimäärästään kunkin tehtävän kohdalla, mikä tekee siitä sekä tehokkaan kouluttaa että nopean käyttää.
Pilvipalveluyritys CoreWeave teki historiaa kouluttamalla DeepSeek-V3 671B -mallin vain 2,02 minuutissa käyttäen 8 192 Nvidia GB300 NVL72 -grafiikkasuoritinta – tämä oli kierroksen suurin GB300-klusteri, ja se toimi asiakastuotannossa olevassa pilvi-infrastruktuurissa .
Tämä oli testatun historian nopein tulos kyseiselle mallille. Saavutus ei syntynyt pelkästä raa'asta laskentatehosta, vaan koko pino optimoitiin verkkoratkaisuista ohjelmistopinoon ja tallennuskerroksiin asti . On helppo kuvitella, mitä tämä tarkoittaa suurten tekoälymallien kehityssykleille – kokeilut ja iteraatiot, jotka aiemmin veivät päiviä, voidaan nyt tehdä minuuteissa.
CoreWeave koulutti saman mallin myös 4 096 grafiikkasuorittimella 3,09 minuutissa ja 2 048 suorittimella 5,54 minuutissa, mikä osoittaa ratkaisun skaalautuvuuden erinomaisesti .
Nvidian GB300 NVL72 -järjestelmä (Blackwell Ultra) edustaa merkittävää sukupolvenvaihdosta. Verrattuna edeltäjäänsä GB200 NVL72, se tarjoaa jopa 2,77-kertaisen tokenien käsittelynopeuden päättelytehtävissä ja tässä testikierroksessa huomattavasti korkeamman koulutuksen läpimenon .
Suorituskykyhyppy johtuu suuremmasta muistikapasiteetista ja tehonkulutusbudjetista, jotka mahdollistavat paremman mallin paikallisuuden ja suuremman läpimenon . Kun tähän yhdistetään Nvidian ohjelmistokehityksen nopeus, tulokset ovat hämmästyttäviä: DeepSeek-V3:n koulutuksen läpimeno parani 1,3-kertaiseksi vain kolmessa kuukaudessa identtisellä raudalla, kiitos ohjelmistoparannusten kuten CUDA graphien ja CuTe DSL -fuusioiden
. Tämä osoittaa, kuinka moderni tekoälysuorituskyky syntyy yhä enemmän piisirun ja koodin saumattomasta yhteispelistä.
Kierroksella 24 organisaatiota toimitti tuloksia 95 eri järjestelmästä, jotka käyttivät 13 eri laitteistokiihdytintä . Tämä kertoo alan kasvavasta kilpailusta ja teknisestä monimuotoisuudesta.
Erityisen huomionarvoista on, että AMD:n Instinct MI355X käytti MXFP4-tarkkuutta ja saavutti kilpailukykyisiä tuloksia Nvidia B200:ta vastaan: Llama 2-70B:n hienosäädössä se jäi alle 5 % ja Llama 3.1-8B:n esikoulutuksessa alle 6 % päähän Nvidian vastaavista . Tämä on merkittävä edistysaskel vaihtoehtoisille alustoille ja osoittaa, että tarkkuustekniikat, kuten FP4-muunnelmat, voivat kaventaa eroa huipputasolla.
Nvidian kumppanit skaalasivat jopa 8 192 Blackwell-grafiikkasuorittimen hyperskaalaklustereihin, hyödyntäen Spectrum-X Ethernet -teknologiaa adaptiivisella reitityksellä ja ruuhkanhallinnalla. Tämä mahdollisti lähes teoreettisen verkon kaistanleveyden ylläpitämisen asiantuntijasekoitusmallien räjähdysmäisessä "kaikki kaikille" -tietoliikenteessä .
NVLink-kytkentäalueiden ja skaalautuvien verkkoratkaisujen yhdistelmä tuotti ennätysajat kaikissa testeissä, joista tässä muutama kohokohta :
Nämä ajat eivät ole vain tilastomerkintöjä – ne edustavat konkreettista edistystä kohti nopeampaa tekoälykehitystä, jossa suuryritykset ja laboratoriot voivat toistaa ja kokeilla mallejaan päivittäin, ei viikoittain.
MLPerf Training v6.0 osoittaa, että tekoälyn infrastruktuurissa mennään eteenpäin rajusti ja monella rintamalla. Nvidian Blackwell Ultra -arkkitehtuuri tarjoaa raakaa laskentatehoa, jota tukee nopeasti kehittyvä ohjelmistopino. Asiantuntijasekoitusmallit, kuten DeepSeek-V3, edustavat uutta tehokkuusparadigmaa, jossa valtavat parametrimäärät eivät enää tarkoita suoraan valtavia laskentakustannuksia. AMD:n edistys puolestaan lupaa tervetullutta kilpailua, joka hyödyttää koko ekosysteemiä. Yrityksille tämä tarkoittaa yhä saavutettavampaa pääsyä huipputason tekoälytyökalujen kehittämiseen ja käyttöönottoon.
Comments
0 comments