UltraSpeed-läget är ingen ny modellklass, utan ett teknikdrivet serveringsläge ovanpå MiMo-V2.5-Pro: en MoE‑arkitektur (Mixture-of-Experts) med 1,02 biljoner parametrar, 42 miljarder aktiva parametrar och ett kontextfönster på 1 miljon tokens .
Xiaomis officiella dokumentation beskriver en heltäckande samdesign av modell och system som kombinerar tre koordinerade tekniker för att pressa genomströmningen förbi 1 000 tokens/s .
Endast MoE‑expertskikten kvantiseras till FP4‑precision, medan alla övriga lager behåller sin ursprungliga precision . Kvantiseringsmedveten träning (QAT) minskar modellens minnesfotavtryck och bandbreddstryck med målet att behålla kvaliteten nära förlustfri nivå
. Detta selektiva angreppssätt undviker att försämra icke‑expertkomponenter som är känsligare för precisionsförluster.
DFlash ersätter traditionell autoregressiv utkastgenerering med blockbaserad maskerad parallellprediktion . Utkastmodellen använder sliding‑window attention (SWA) för att hålla prediktionskostnaden nära konstant, i stället för att skala med sekvenslängden
. En Muon‑optimerare och självdestillering används för att förbättra acceptansfrekvensen, vilket direkt ökar inferensgenomströmningen
. I kodningsscenarier rapporteras en genomsnittlig accepterad längd om cirka 6,30 tokens per verifieringssteg
.
TileRT‑systemet överger den konventionella modellen med per‑operator kernel‑anrop till förmån för en persistent kernel‑motor där beräkningspipelinen förblir resident på GPU:n . Full pipeline‑prefetching överlappar dataförflyttning med beräkning och minskar dramatisk GPU‑cykler som går i tomgång
. Systemet bryter också ned kommunikation, dataförflyttning och tensorberäkning över olika warps med dedikerade roller, vilket i praktiken förvandlar GPU:n till ett kontinuerligt flödande, heterogent exekveringssystem
.
Testpriset för UltraSpeed‑API:et är satt till exakt 3× standardpriset för MiMo-V2.5-Pro för output .
Input‑prissättningen följer samma 3× multiplikator, med cache‑träff‑input på $0,0108 per miljon tokens och cache‑miss‑input på $1,305 per miljon tokens . Xiaomi marknadsför detta som "3× priset, 10× outputupplevelsen" och betonar att man får ungefär tio gånger högre genomströmning för tre gånger tokenkostnaden
.
Testperioden för UltraSpeed är tydligt tidsbegränsad: 9 juni till 23 juni 2026 klockan 23:59 . Tillgången är ansökningsbaserad på grund av begränsade höghastighets‑inferensresurser, med prioritet för företag och professionella utvecklingsfall
.
Godkända användare får en kostnadsfri chattupplevelse under tvåveckorsfönstret, under rättviseregler: högst 10 lyckade köposter per konto och dag, en sessionsgräns på 30 minuter och automatisk resursfrigivning efter 5 minuters inaktivitet . Xiaomi garanterar varken granskningstider eller godkännandegrad
.
Den underliggande modellen, benämnd MiMo-V2.5-Pro-FP4-DFlash, släpptes som öppen källkod samtidigt som UltraSpeed‑tillkännagivandet . De FP4‑kvantiserade vikterna och DFlash‑modellcheckpointsen finns tillgängliga på HuggingFace, i linje med Xiaomis dokumentation som identifierar FP4‑kvantisering och DFlash spekulativ avkodning som centrala systemkomponenter
.
UltraSpeed‑läget visar att inferens på biljonparametersnivå vid interaktiva hastigheter kan köras på vanlig infrastruktur utan specialkretsar – ett avsteg från den specialhårdvaruintensiva ansats som syns på andra håll i branschen . För utvecklare som bygger latenskänsliga agenttillämpningar, verktygsanropande pipelines eller realtidskodgenerering innebär kombinationen av hög genomströmning och ett kontextfönster på 1 miljon tokens en praktisk väg mot snabbare och mer kapabla produktionssystem – förutsatt att de får tillgång under den begränsade testperioden.
Comments
0 comments