UltraSpeed er ikke en ny modelklasse, men et ingeniørdrevet serving-mode, der lægger sig oven på MiMo-V2.5-Pro. Grundmodellen er en MoE-arkitektur (Mixture of Experts) med 1,02 billioner parametre, 42 milliarder aktive parametre og et massivt kontekstvindue på 1 million tokens .
Den officielle dokumentation beskriver et full-stack co-design, der kombinerer tre teknikker for at presse gennemstrømningen over 1.000 tokens/s .
For at reducere modellens hukommelsesfodaftryk og båndbreddetryk anvendes FP4-kvantisering kun på MoE-ekspertlagene, mens alle andre lag bevarer deres oprindelige præcision . Via kvantiseringsbevidst træning (QAT) opnår man en drastisk formindskelse, der presser hardwaren maksimalt, samtidig med at modelkvaliteten holdes næsten tabsfri
.
DFlash erstatter den klassiske autorgressive draft-generering med blokvis, maskeret parallel prædiktion . Draft-modellen bruger sliding-window attention (SWA) for at holde prædiktionsomkostningen næsten konstant frem for at skalere med sekvenslængden
. Muon-optimeringsalgoritmen og selv-destillation bruges til at øge acceptraten og dermed den reelle inferens-gennemstrømning
. I kodningsscenarier viser rapporter en gennemsnitlig accepteret længde på cirka 6,30 tokens per verifikationstrin
.
TileRT dropper den konventionelle per-operator kernel launch-model. I stedet bruges en vedvarende kernel-motor, hvor beregnings-pipelinen forbliver resident på GPU'en . Full-pipeline prefetching overlapper dataflytning og beregning og eliminerer næsten alle GPU-cyklusser i tomgang
. Systemet dekomponerer desuden kommunikation, dataflytning og tensorberegning på tværs af forskellige warps med dedikerede roller, så GPU'en opfører sig som et kontinuerligt flydende, heterogent eksekveringssystem
.
Input-priserne følger samme 3× multiplikator, med cache-hit til 0,0108 USD per million tokens og cache-miss til 1,305 USD per million tokens . Xiaomi markedsfører dette som "3× prisen, 10× output-oplevelsen" og fremhæver, at man får op mod 10 gange højere hastighed for en tredobbelt token-pris
.
UltraSpeed-trialperioden er tidsbegrænset fra 9. juni til 23. juni 2026 kl. 23:59 . På grund af begrænsede højhastigheds-inferensressourcer er adgang ansøgningsbaseret, og virksomheder og professionelle udviklere prioriteres
.
Godkendte brugere får en gratis chat-oplevelse i de to uger, men er underlagt retfærdighedsregler: maksimalt 10 vellykkede kø-placeringer per konto per dag, sessionsgrænse på 30 minutter og automatisk frigivelse af ressourcer efter 5 minutters inaktivitet . Xiaomi garanterer hverken svartider på ansøgninger eller en bestemt godkendelsesprocent
.
Selve den underliggende model, kaldet MiMo-V2.5-Pro-FP4-DFlash, blev udgivet som open source samtidig med annonceringen . De FP4-kvantiserede vægte og DFlash-modelcheckpoints ligger frit tilgængelige på HuggingFace
. Dette er i tråd med Xiaomis dokumentation, der netop peger på FP4-kvantisering og DFlash-dekodning som systemets kernekomponenter
.
UltraSpeed-tilstanden viser konkret, at billion-parameter-inferens ved interaktive hastigheder kan afvikles på almindelig standardinfrastruktur – et markant brud med den tilgang, der ellers ses med specialudviklede chips . For udviklere, der bygger latensfølsomme agent-applikationer, tool-calling-pipelines eller realtids kodegenerering, signalerer kombinationen af ekstrem hastighed og et kontekstvindue på 1 million tokens en praktisk vej mod hurtigere og mere kapable produktionssystemer – hvis man altså kan få fingre i adgang inden for den korte prøveperiode.
Comments
0 comments