De UltraSpeed-modus is geen nieuwe modelklasse, maar een door engineering gedreven inferentiemodus bovenop MiMo-V2.5-Pro. Dat is een Mixture-of-Experts-architectuur met 1,02 biljoen parameters, 42 miljard actieve parameters en een contextvenster van 1 miljoen tokens .
Xiaomi's officiële documentatie beschrijft een full-stack co-design van model en systeem dat drie gecoördineerde technieken combineert om de doorvoersnelheid voorbij de 1.000 tokens/s te stuwen .
Alleen de expertlagen in de MoE-architectuur (Mixture of Experts) worden gequantiseerd naar FP4-precisie, terwijl alle andere lagen hun oorspronkelijke precisie behouden . Quantisatiebewuste training (QAT) verkleint de geheugenvoetafdruk en bandbreedtedruk van het model, met als doel de kwaliteit vrijwel verliesvrij te houden
. Deze selectieve aanpak voorkomt dat niet-expertcomponenten, die gevoeliger zijn voor precisieverlies, worden aangetast.
DFlash vervangt de traditionele autoregressieve conceptgeneratie door gemaskeerde parallelle voorspelling op blokniveau . Het conceptmodel gebruikt sliding-window attention (SWA) om de voorspellingskosten nagenoeg constant te houden, in plaats van te laten schalen met de sequentielengte
. Een Muon-optimizer en zelfdestillatie worden ingezet om de acceptatiegraad te verhogen, wat direct leidt tot een hogere inferentiedoorvoer
. In codeerscenario's wijzen rapporten op een gemiddelde geaccepteerde lengte van ongeveer 6,30 tokens per verificatiestap
.
Het TileRT-systeem verlaat het conventionele model van per-operator kernel-lanceringen en kiest voor een persistente kernel-engine waarbij de rekencarrousel continu op de GPU aanwezig blijft . Full-pipeline prefetching overlapt gegevensverplaatsing en berekening, waardoor inactieve GPU-cycli drastisch worden verminderd
. Het systeem ontleedt ook communicatie, gegevensverplaatsing en tensorberekeningen over verschillende warps, elk met een eigen toegewezen rol. Zo verandert de GPU effectief in een continu stromend, heterogeen uitvoeringssysteem
.
De inputprijs volgt dezelfde 3×-vermenigvuldiger: input bij een cache-hit kost $0,0108 per miljoen tokens, input bij een cache-miss kost $1,305 per miljoen tokens . Xiaomi zet dit in de markt als "3× de prijs, 10× de outputervaring" en benadrukt daarmee de ruwweg 10× hogere doorvoersnelheid voor 3× de tokenprijs
.
De UltraSpeed-proefperiode is expliciet in tijd beperkt: van 9 juni tot en met 23 juni 2026, 23:59 uur . Toegang verloopt op aanvraag vanwege de beperkte middelen voor hogesnelheidsinferentie. Voorrang wordt gegeven aan zakelijke en professionele ontwikkeltoepassingen
.
Goedgekeurde gebruikers krijgen een gratis chatervaring gedurende deze twee weken, met inachtneming van eerlijk gebruiksbeleid: maximaal 10 succesvolle wachtrijdeelnames per account per dag, een sessielimiet van 30 minuten en automatische vrijgave van middelen na 5 minuten inactiviteit . Xiaomi geeft geen garanties over de snelheid van beoordeling of het goedkeuringspercentage
.
Het onderliggende model, MiMo-V2.5-Pro-FP4-DFlash, werd gelijktijdig met de UltraSpeed-aankondiging open source uitgebracht . De FP4-gequantiseerde gewichten en DFlash-modelcheckpoints zijn beschikbaar op HuggingFace, in lijn met Xiaomi's documentatie die FP4-quantisatie en DFlash-speculatief decoderen als kerncomponenten aanwijst
.
De UltraSpeed-modus toont aan dat inferentie met biljoenen parameters op interactieve snelheden kan draaien op gangbare infrastructuur, zonder speciale chips – een breuk met de benadering van gespecialiseerde hardware die elders in de industrie te zien is . Voor ontwikkelaars die bouwen aan latentiegevoelige agentische toepassingen, tool-calling-pipelines of realtime codegeneratie, biedt de combinatie van hoge doorvoer en een contextvenster van 1 miljoen tokens een praktisch pad naar snellere, krachtigere productiesystemen — mits ze tijdens de beperkte proefperiode toegang kunnen krijgen.
Comments
0 comments