La modalità UltraSpeed non è una nuova classe di modelli, ma una modalità di serving ingegnerizzata che si sovrappone a MiMo-V2.5-Pro, un'architettura Mixture-of-Experts da 1,02 trilioni di parametri, con 42 miliardi di parametri attivi e una finestra di contesto di 1 milione di token .
La documentazione ufficiale di Xiaomi descrive un co-design full-stack modello-sistema che combina tre tecniche coordinate per spingere il throughput oltre i 1.000 token/s .
Solo gli strati esperti del MoE (Mixture of Experts) vengono quantizzati a precisione FP4, mentre tutti gli altri strati mantengono la loro precisione originale . L'addestramento consapevole della quantizzazione (QAT) riduce l'ingombro in memoria e la pressione sulla banda del modello, con l'obiettivo di mantenere una qualità pressoché invariata
. Questo approccio selettivo evita di degradare componenti non-esperti, più sensibili alla perdita di precisione.
DFlash sostituisce la tradizionale generazione di bozze autoregressiva con una predizione parallela mascherata a livello di blocco . Il modello di bozza utilizza un'attenzione a finestra scorrevole (SWA) per mantenere il costo computazionale quasi costante, invece di scalare con la lunghezza della sequenza
. Vengono impiegati un ottimizzatore Muon e l'auto-distillazione per migliorare i tassi di accettazione, traducendosi direttamente in un aumento del throughput di inferenza
. In scenari di coding, i report indicano una lunghezza media accettata di circa 6,30 token per ogni fase di verifica
.
Il sistema TileRT abbandona il modello convenzionale di lancio di kernel per singolo operatore, a favore di un motore a kernel persistente in cui la pipeline di calcolo rimane residente sulla GPU . Il prefetching a pipeline completa sovrappone il movimento dei dati con il calcolo, riducendo drasticamente i cicli di inattività della GPU
. Il sistema scompone inoltre comunicazione, movimento dati e calcolo tensoriale su diversi warp con ruoli dedicati, trasformando di fatto la GPU in un sistema di esecuzione eterogeneo a flusso continuo
.
Il prezzo di prova dell'API UltraSpeed è fissato esattamente a 3 volte il prezzo di output dello standard MiMo-V2.5-Pro .
Il prezzo dell'input segue lo stesso moltiplicatore 3x, con input in cache-hit a $0,0108 per milione di token e input in cache-miss a $1,305 per milione di token . Xiaomi commercializza questa offerta come "3× il prezzo, 10× l'esperienza di output", sottolineando il guadagno di circa 10 volte in termini di throughput a fronte di un costo per token triplicato
.
Il periodo di prova di UltraSpeed è esplicitamente delimitato: dal 9 giugno al 23 giugno 2026, fino alle 23:59 . L'accesso è su richiesta a causa delle risorse limitate per l'inferenza ad alta velocità, con priorità data a casi d'uso aziendali e di sviluppatori professionali
.
Gli utenti approvati ricevono un'esperienza di chat gratuita durante le due settimane, soggetta a regole di equità: un massimo di 10 ingressi in coda andati a buon fine per account al giorno, un limite di sessione di 30 minuti e il rilascio automatico delle risorse dopo 5 minuti di inattività . Xiaomi non garantisce tempi di revisione né tassi di approvazione
.
Il modello sottostante, denominato MiMo-V2.5-Pro-FP4-DFlash, è stato rilasciato come open source contestualmente all'annuncio di UltraSpeed . I pesi quantizzati in FP4 e i checkpoint del modello DFlash sono disponibili su HuggingFace, coerentemente con la documentazione di Xiaomi che identifica la quantizzazione FP4 e la decodifica speculativa DFlash come componenti fondamentali del sistema
.
La modalità UltraSpeed dimostra che l'inferenza su modelli da trilioni di parametri a velocità interattive può funzionare su infrastruttura standard, senza silicio personalizzato. Un deciso cambio di rotta rispetto all'approccio basato su hardware specializzato visto altrove nel settore . Per gli sviluppatori che costruiscono applicazioni agentiche sensibili alla latenza, pipeline di tool-calling o strumenti di generazione di codice in tempo reale, la combinazione di alto throughput e una finestra di contesto di 1 milione di token segnala un percorso concreto verso sistemi di produzione più veloci e capaci — a patto di riuscire a ottenere l'accesso durante la limitata finestra di prova.
Comments
0 comments