UltraSpeed ei ole täysin uusi malli, vaan insinööritaidon näyte – nopea palvelutila, joka on rakennettu MiMo-V2.5-Pro:n päälle. Kyseessä on 1,02 biljoonan parametrin "Mixture-of-Experts" (MoE) -arkkitehtuuri, jossa on 42 miljardia aktiivista parametria ja massiivinen miljoonan tokenin konteksti-ikkuna . Suomeksi tämä tarkoittaa, että malli pystyy käsittelemään kerralla hyvin pitkiä tekstejä, mikä on elintärkeää esimerkiksi laajoja kooditiedostoja tai asiakirjoja analysoitaessa.
Xiaomin virallisen dokumentaation mukaan kyseessä on koko järjestelmän kattava malli-järjestelmä-yhteissuunnittelu, jossa kolme tekniikkaa on valjastettu yhteen vauhdin nostamiseksi yli 1 000 t/s:iin .
Vain MoE-arkkitehtuurin "asiantuntijakerrokset" kvantisoidaan äärimmäisen kevyeen FP4-tarkkuuteen, kun taas muut mallin osat säilyttävät alkuperäisen tarkkuutensa . "Kvantisointitietoinen koulutus" (QAT) kutistaa mallin muistivaatimuksia ja muistiväylän painetta radikaalisti pyrkien samalla lähes häviöttömään laatuun
. Tämä valikoiva lähestymistapa välttää heikentämästä komponentteja, jotka ovat herkempiä tarkkuuden menetykselle.
DFlash korvaa perinteisen, sana sanalta etenevän "draft"-ennustuksen lohkotason rinnakkaispurkumenetelmällä . Kevyt draft-malli käyttää liukuikkunahuomiota (SWA), jotta ennustuksen laskentakustannus pysyy lähes vakiona eikä kasva tekstin pituuden myötä
. Ennusteiden oikeellisuusastetta parannetaan Muon-optimoijalla ja "itse-tislaamisella", mikä muuntuu suoraan suuremmaksi päättelyn läpivirtaukseksi. Koodaukseen liittyvissä skenaarioissa mallin on raportoitu hyväksyvän keskimäärin noin 6,30 tokenia yhtä varmennusvaihetta kohden
. Tämä tarkoittaa, että se arvaa useita sanoja kerralla oikein, mikä kiihdyttää vastauksen muodostumista huomattavasti.
TileRT-järjestelmä hylkää perinteisen tavan käynnistää jokainen laskentaoperaatio erikseen GPU:lla. Sen sijaan se käyttää pysyvää kernel-moottoria, jossa koko laskentaputki pysyy aktiivisena GPU:n sisällä . Täydellinen esihaku piilottaa tiedonsiirron laskennan alle, jolloin GPU:n joutojaksot kutistuvat minimiin
. Järjestelmä jakaa viestinnän, tiedonsiirron ja matriisilaskennan eri "warpeille" eli laskentasäiejoukoille, jotka hoitavat kukin omaa tehtäväänsä. Tämä muuttaa GPU:n jatkuvasti virtaavaksi, heterogeeniseksi suoritusjärjestelmäksi
.
UltraSpeed API:n kokeiluhinta on tasan kolminkertainen verrattuna normaaliin MiMo-V2.5-Pro-malliin . Xiaomi markkinoi tätä iskulauseella "3-kertainen hinta, 10-kertainen tuottonopeus", korostaen noin kymmenkertaista nopeushyötyä kolminkertaisella token-hinnalla
.
Syötteen hinnoittelu seuraa samaa kolminkertaista kerrointa: välimuistiosuma 0,0108 dollaria / miljoona tokenia ja välimuistihuti 1,305 dollaria / miljoona tokenia . Tämä hinnoittelu tekee erittäin nopeasta päättelystä taloudellisesti houkuttelevaa esimerkiksi agenttisovelluksille, joissa odottelu on myrkkyä.
UltraSpeed-kokeilu on tiukasti aikarajattu: 9. kesäkuuta – 23. kesäkuuta 2026 klo 23:59 . Resurssien rajallisuuden vuoksi pääsy on hakemuspohjaista, ja etusijalla ovat yritysasiakkaat ja ammattikehittäjät, joilla on todellisia tarpeita huippunopealle päättelylle
.
Hyväksytyt käyttäjät saavat ilmaisen "chat"-kokemuksen kahden viikon ikkunan ajaksi. Oikeudenmukaisuuden takaamiseksi käytössä on rajoituksia: yksi tili voi liittyä jonoon korkeintaan 10 kertaa päivässä, yhden istunnon enimmäiskesto on 30 minuuttia, ja jos istunto on toimettomana yli 5 minuuttia, resurssit vapautetaan automaattisesti . Xiaomi ei takaa hakemusten käsittelyn nopeutta tai hyväksymisprosenttia
.
UltraSpeed-julkistuksen rinnalla Xiaomi julkaisi taustalla olevan MiMo-V2.5-Pro-FP4-DFlash-mallin avoimena lähdekoodina . FP4-kvantisoidut painot ja DFlash-mallin tarkistuspisteet ovat vapaasti ladattavissa HuggingFace-palvelusta, mikä on linjassa Xiaomin dokumentaation kanssa, joka nimeää juuri nämä tekniikat järjestelmän ydinkomponenteiksi
. Tämä on suuri lahja kehittäjäyhteisölle, sillä se mahdollistaa huippunopean päättelyn kokeilun ja jatkokehityksen.
UltraSpeed-tila todistaa, että biljoonan parametrin päättely vuorovaikutteisilla nopeuksilla voidaan saavuttaa tavallisella raudalla – ilman kalliita räätälöityjä tekoälypiirejä. Tämä poikkeaa alan yleisestä trendistä, jossa nopeus on ostettu erikoissiruin . Suomalaisille kehittäjille, jotka rakentavat latenssiherkkiä agenttisovelluksia, työkaluputkia tai reaaliaikaista koodigenerointia, tämä on merkittävä askel kohti nopeampia ja kyvykkäämpiä tuotantojärjestelmiä. Yhdistettynä miljoonan tokenin konteksti-ikkunaan se avaa ovia sovelluksille, jotka aiemmin olivat liian hitaita tai kömpelöitä toteuttaa – olettaen tietysti, että kehittäjä ehtii mukaan tiukan kokeilujakson aikana.
Comments
0 comments