Režim UltraSpeed není novou třídou modelu, ale inženýrsky řízeným servírovacím režimem navrstveným na model MiMo-V2.5-Pro. Ten je architekturou Mixture-of-Experts (směs expertů) s 1,02 biliony parametrů, 42 miliardami aktivních parametrů a kontextovým oknem o velikosti 1 milionu tokenů .
Oficiální dokumentace Xiaomi popisuje komplexní co-design modelu a systému, který kombinuje tři koordinované techniky k dosažení propustnosti přes 1 000 tokenů/s .
Pouze expertní vrstvy architektury MoE jsou kvantizovány na přesnost FP4, zatímco všechny ostatní vrstvy si zachovávají původní přesnost . Kvantizačně uvědomělý trénink (QAT) snižuje paměťovou stopu modelu a tlak na přenosovou kapacitu paměti s cílem zachovat kvalitu téměř bez ztrát
. Tento selektivní přístup zabraňuje degradaci ne-expertních komponent, které jsou citlivější na ztrátu přesnosti.
DFlash nahrazuje tradiční autoregresní generování návrhů blokovou maskovanou paralelní predikcí . Návrhový model využívá klouzavou okenní pozornost (SWA), aby udržel náklady na predikci téměř konstantní, místo aby se škálovaly s délkou sekvence
. K vylepšení míry akceptace se používá optimalizátor Muon a sebedestilace, což přímo zvyšuje propustnost inference
. V kódovacích scénářích zprávy uvádějí průměrnou akceptovanou délku kolem 6,30 tokenů na jeden ověřovací krok
.
Systém TileRT opouští konvenční model spouštění kernelů pro jednotlivé operátory a přechází na persistentní kernel engine, kde výpočetní pipeline zůstává rezidentní na GPU . Prefetching celé pipeline překrývá přesuny dat s výpočtem, čímž dramaticky snižuje nečinné cykly GPU
. Systém také rozkládá komunikaci, přesun dat a tenzorové výpočty mezi různé warpy s dedikovanými rolemi, čímž z GPU efektivně vytváří plynule běžící heterogenní výkonný systém
.
Zkušební cena UltraSpeed API je stanovena přesně na 3násobek standardní ceny výstupu modelu MiMo-V2.5-Pro . Pro české vývojáře, kteří obvykle využívají mezinárodní ceny v dolarech, to znamená:
Ceny vstupů se řídí stejným trojnásobným násobitelem. Při využití cache vyjde vstup na $0.0108 za milion tokenů, bez cache pak $1.305 za milion tokenů . Xiaomi toto nastavení propaguje heslem „3× vyšší cena, 10× lepší výstupní zážitek“, čímž zdůrazňuje zhruba desetinásobné zvýšení propustnosti za trojnásobnou cenu tokenu
.
Zkušební období UltraSpeed API je explicitně časově omezeno: od 9. června do 23. června 2026, do 23:59 . Přístup je založen na žádosti kvůli omezeným vysokorychlostním inferenčním zdrojům, přičemž prioritu mají firemní a profesionální vývojářské případy užití
.
Schválení uživatelé získají během dvoutýdenního okna bezplatný chatovací zážitek, který podléhá pravidlům férovosti: maximálně 10 úspěšných zařazení do fronty na účet za den, limit 30 minut na jednu relaci a automatické uvolnění zdrojů po 5 minutách nečinnosti . Xiaomi negarantuje rychlost vyřízení žádosti ani míru schválení
.
Základní model, označovaný jako MiMo-V2.5-Pro-FP4-DFlash, byl spolu s oznámením UltraSpeed uvolněn jako open-source . FP4 kvantizované váhy a DFlash modelové checkpointy jsou dostupné na platformě HuggingFace, což je v souladu s dokumentací Xiaomi, která FP4 kvantizaci a DFlash spekulativní dekódování označuje jako klíčové systémové komponenty
.
Režim UltraSpeed demonstruje, že inference modelů s bilionem parametrů při interaktivních rychlostech může běžet na komoditní infrastruktuře bez potřeby speciálních čipů. To je zásadní odklon od přístupu spoléhání se na specializovaný hardware, který je vidět jinde v oboru . Pro vývojáře, kteří budují aplikace s agenty citlivými na latenci, pipeline pro volání nástrojů nebo generování kódu v reálném čase, představuje kombinace vysoké propustnosti a kontextového okna o velikosti milionu tokenů praktickou cestu k rychlejším a schopnějším produkčním systémům – za předpokladu, že se jim podaří získat přístup během omezeného zkušebního okna.
Comments
0 comments