UltraSpeed-modusen er ikke en ny modellklasse, men en ingeniørdrevet tjenestemodus lagt oppå MiMo-V2.5-Pro, en MoE-arkitektur (Mixture of Experts) med 1,02 billioner parametere, 42 milliarder aktive parametere og et kontekstvindu på 1 million tokens .
Xiaomis offisielle dokumentasjon beskriver et fullstabelt modell-system-samspill som kombinerer tre koordinerte teknikker for å presse gjennomstrømningen forbi 1000 tokens/s .
Kun MoE-ekspertlagene (Mixture of Experts) kvantiseres til FP4-presisjon, mens alle andre lag beholder sin opprinnelige presisjon . Kvantiseringsbevisst trening (QAT) reduserer modellens minnefotavtrykk og båndbreddepress, med mål om å opprettholde tilnærmet tapsfri kvalitet
. Denne selektive tilnærmingen unngår å forringe komponenter utenfor ekspertene som er mer følsomme for presisjonstap.
DFlash erstatter tradisjonell autogressiv utkastgenerering med blokknivå maskert parallell prediksjon . Utkastmodellen bruker glidende vindu-oppmerksomhet (SWA) for å holde prediksjonskostnaden tilnærmet konstant, i stedet for å skalere med sekvenslengden
. En Muon-optimalisator og selv-destillasjon brukes for å forbedre akseptrater, noe som direkte øker inferensgjennomstrømningen
. I kodescenarier indikerer rapporter en gjennomsnittlig akseptert lengde på rundt 6,30 tokens per verifikasjonssteg
.
TileRT-systemet forkaster den konvensjonelle modellen med å starte én kjerne per operasjon, til fordel for en vedvarende kjerne-motor der beregningspipelinen forblir resident på GPU-en . Full-pipeline forhåndshenting overlapper dataflytting med beregning, noe som dramatisk reduserer inaktive GPU-sykluser
. Systemet dekomponerer også kommunikasjon, dataflytting og tensorberegning på tvers av ulike «warps» med dedikerte roller, og forvandler effektivt GPU-en til et kontinuerlig flytende, heterogent eksekveringssystem
.
Prøveprisen for UltraSpeed-API-et er satt til nøyaktig 3 ganger standard utdatapris for MiMo-V2.5-Pro .
Inndataprising følger samme 3x multiplikator, med cache-treff-inndata til $0,0108 per million tokens og cache-bom-inndata til $1,305 per million tokens . Xiaomi markedsfører dette som «3 ganger prisen, 10 ganger utdataopplevelsen,» og understreker den omtrent 10 ganger økningen i gjennomstrømning for 3 ganger token-kostnaden
.
Prøveperioden for UltraSpeed er eksplisitt tidsavgrenset: 9. juni til 23. juni 2026, kl. 23:59 . Tilgang er søknadsbasert på grunn av begrensede høyhastighets inferensressurser, med prioritet til bedrifts- og profesjonelle utviklerbruk
.
Godkjente brukere får en gratis chat-opplevelse i løpet av toukersvinduet, underlagt rettferdighetsregler: maksimalt 10 vellykkede køplasser per konto per dag, en øktgrense på 30 minutter, og automatisk frigjøring av ressurser etter 5 minutters inaktivitet . Xiaomi garanterer ikke responstid for gjennomgang eller godkjenningsgrad
.
Den underliggende modellen, kalt MiMo-V2.5-Pro-FP4-DFlash, ble lansert som åpen kildekode samtidig med UltraSpeed-kunngjøringen . De FP4-kvantiserte vektene og DFlash-modellsjekkpunktene er tilgjengelige på HuggingFace, i samsvar med Xiaomis dokumentasjon som identifiserer FP4-kvantisering og DFlash spekulativ dekoding som kjernesystemkomponenter
.
UltraSpeed-modusen demonstrerer at billion-parameter inferens i interaktive hastigheter kan kjøre på standard infrastruktur uten spesialbrikker, et avvik fra den spesialiserte maskinvaretilnærmingen man ser andre steder i bransjen . For utviklere som bygger ventetidsfølsomme agent-applikasjoner, verktøykallingspipeliner eller sanntids kodegenerering, signaliserer kombinasjonen av høy gjennomstrømning og et kontekstvindu på 1 million tokens en praktisk vei mot raskere og mer kapable produksjonssystemer – forutsatt at de får tilgang i løpet av den begrensede prøveperioden.
Comments
0 comments