Tryb UltraSpeed nie jest nową klasą modelu, lecz trybem serwowania stworzonym dzięki inżynieryjnej optymalizacji, nałożonym na MiMo-V2.5-Pro. To architektura Mixture-of-Experts (MoE) o 1,02 biliona parametrów całkowitych, z 42 miliardami parametrów aktywnych i oknem kontekstowym o długości miliona tokenów .
Oficjalna dokumentacja Xiaomi opisuje pełną kooperację modelu i systemu (full-stack model-system co-design), która łączy trzy zsynchronizowane techniki, aby wypchnąć przepustowość poza 1000 tokenów/s .
Kwantyzacji do precyzji FP4 poddawane są wyłącznie warstwy eksperckie w architekturze MoE (Mixture of Experts), podczas gdy wszystkie pozostałe warstwy zachowują swoją oryginalną precyzję . Trening z uwzględnieniem kwantyzacji (Quantization-Aware Training, QAT) zmniejsza rozmiar modelu i zapotrzebowanie na przepustowość pamięci, starając się zachować jakość działania na niemal bezstratnym poziomie
. To selektywne podejście pozwala uniknąć degradacji komponentów nie-eksperckich, które są bardziej wrażliwe na utratę precyzji.
Technika DFlash zastępuje tradycyjne generowanie wersji roboczych (draft) w sposób autoregresyjny, wykorzystując blokową, zamaskowaną predykcję równoległą . Model draft używa mechanizmu uwagi z przesuwnym oknem (Sliding-Window Attention, SWA), aby utrzymać koszt predykcji na niemal stałym poziomie, niezależnie od długości sekwencji
. Do poprawy współczynnika akceptacji wykorzystano optymalizator Muon oraz samodestylację (self-distillation), co bezpośrednio przekłada się na wzrost przepustowości wnioskowania
. W scenariuszach programistycznych raporty wskazują, że średnia zaakceptowana długość wynosi około 6,30 tokena na krok weryfikacji
.
System TileRT porzuca konwencjonalny model uruchamiania jądra dla każdego operatora na rzecz silnika trwałego jądra (persistent kernel engine), gdzie potok obliczeniowy stale rezydentuje na GPU . Pełno-potokowe pobieranie z wyprzedzeniem (full-pipeline prefetching) nakłada na siebie operacje przenoszenia danych i obliczeń, drastycznie redukując puste cykle GPU
. System dekomponuje również zadania związane z komunikacją, przesyłem danych i obliczeniami tensorowymi na różne, wyspecjalizowane wątki (warps), skutecznie przekształcając GPU w nieprzerwanie pracujący, heterogeniczny system wykonawczy
.
Cena za dostęp do API UltraSpeed w okresie próbnym jest ustalona na dokładnie 3-krotność standardowej ceny za tokeny wyjściowe (output) MiMo-V2.5-Pro .
Cennik tokenów wejściowych (input) również podlega mnożnikowi 3x, gdzie wejście z trafieniem w cache kosztuje 0,0108 USD za milion tokenów, a wejście bez trafienia to koszt 1,305 USD za milion tokenów . Xiaomi marketingowo określa to jako „3 razy wyższa cena, 10 razy lepsze wrażenia”, podkreślając tym samym około 10-krotny wzrost przepustowości przy 3-krotnie wyższym koszcie tokenów
.
Okres testowy UltraSpeed jest ściśle ograniczony czasowo: trwa od 9 czerwca do 23 czerwca 2026 roku do godziny 23:59 . Dostęp jest przyznawany na podstawie aplikacji z powodu ograniczonych zasobów szybkiego wnioskowania, a pierwszeństwo mają firmy i profesjonalni deweloperzy
.
Zatwierdzeni użytkownicy otrzymują darmowy dostęp do czatu w dwutygodniowym oknie, na zasadach uczciwego użytkowania: maksymalnie 10 udanych wejść do kolejki na konto dziennie, limit 30 minut na sesję oraz automatyczne zwalnianie zasobów po 5 minutach bezczynności . Xiaomi nie gwarantuje ani szybkości rozpatrywania wniosków, ani ich pozytywnego wyniku
.
Model bazowy, określany jako MiMo-V2.5-Pro-FP4-DFlash, został wydany jako open-source równocześnie z ogłoszeniem UltraSpeed . Wagi skwantyzowane do FP4 oraz checkpointy modelu DFlash są dostępne na platformie HuggingFace, co jest spójne z dokumentacją Xiaomi, identyfikującą kwantyzację FP4 i dekodowanie spekulatywne DFlash jako kluczowe komponenty systemu
.
Tryb UltraSpeed udowadnia, że wnioskowanie na bilionowym modelu parametrów z interaktywną prędkością może działać na powszechnie dostępnej infrastrukturze, bez potrzeby stosowania specjalistycznych układów scalonych. To odejście od podejścia opartego na dedykowanym sprzęcie, które można zaobserwować gdzie indziej w branży . Dla deweloperów tworzących aplikacje agentowe wrażliwe na opóźnienia, potoki wywoływania narzędzi (tool-calling pipelines) czy generowanie kodu w czasie rzeczywistym, połączenie wysokiej przepustowości i milionowego okna kontekstowego sygnalizuje praktyczną ścieżkę do szybszych i wydajniejszych systemów produkcyjnych – pod warunkiem, że uda im się uzyskać dostęp podczas ograniczonego okna testowego.
Comments
0 comments