La documentación oficial de Xiaomi describe un codiseño de sistema-modelo de pila completa que combina tres técnicas coordinadas para llevar el rendimiento más allá de los 1.000 tokens/s .
Solo las capas expertas del MoE (Mezcla de Expertos) se cuantizan a precisión FP4, mientras que todas las demás capas conservan su precisión original . El entrenamiento consciente de la cuantización (QAT) reduce la huella de memoria del modelo y la presión sobre el ancho de banda, con el objetivo de mantener una calidad casi sin pérdidas
. Este enfoque selectivo evita degradar los componentes no expertos, que son más sensibles a la pérdida de precisión.
DFlash reemplaza la generación tradicional de borradores autorregresivos con una predicción paralela enmascarada a nivel de bloque . El modelo de borrador utiliza atención de ventana deslizante (SWA) para mantener el coste de predicción casi constante, en lugar de escalar con la longitud de la secuencia
. Se emplean un optimizador Muon y la autodestilación para mejorar las tasas de aceptación, impulsando directamente el rendimiento de la inferencia
. En escenarios de codificación, los informes indican una longitud media aceptada de alrededor de 6,30 tokens por paso de verificación
.
El sistema TileRT abandona el modelo convencional de lanzamiento de kernel por operador en favor de un motor de kernel persistente donde la tubería de cómputo permanece residente en la GPU . La captación previa (prefetching) de tubería completa superpone el movimiento de datos con el cálculo, reduciendo drásticamente los ciclos de GPU inactivos
. El sistema también descompone la comunicación, el movimiento de datos y el cálculo de tensores en diferentes warps con roles dedicados, convirtiendo efectivamente la GPU en un sistema de ejecución heterogénea de flujo continuo
.
El precio de prueba de la API UltraSpeed se fija exactamente en 3 veces el precio de salida del MiMo-V2.5-Pro estándar .
El precio de entrada sigue el mismo multiplicador de 3x, con la entrada de caché acertada a $0.0108 USD por millón de tokens y la entrada de caché fallida a $1.305 USD por millón de tokens . Xiaomi comercializa esto como "3 veces el precio, 10 veces la experiencia de salida", enfatizando la ganancia de rendimiento aproximadamente 10 veces mayor por solo 3 veces el coste del token
.
El período de prueba de UltraSpeed está explícitamente limitado en el tiempo: del 9 de junio al 23 de junio de 2026, hasta las 23:59 . El acceso se basa en solicitudes debido a los recursos de inferencia de alta velocidad limitados, con prioridad para casos de uso empresariales y de desarrolladores profesionales
.
Los usuarios aprobados reciben una experiencia de chat gratuita durante la ventana de dos semanas, sujeta a reglas de uso justo: un máximo de 10 entradas exitosas a la cola por cuenta al día, un límite de sesión de 30 minutos y liberación automática de recursos tras 5 minutos de inactividad .
El modelo subyacente, denominado MiMo-V2.5-Pro-FP4-DFlash, fue liberado como código abierto junto con el anuncio de UltraSpeed . Los pesos cuantizados en FP4 y los puntos de control del modelo DFlash están disponibles en HuggingFace, en consonancia con la documentación de Xiaomi que identifica la cuantización FP4 y la decodificación especulativa DFlash como componentes centrales del sistema
.
El modo UltraSpeed demuestra que la inferencia de un billón de parámetros a velocidades interactivas puede ejecutarse en infraestructura estándar sin necesidad de silicio personalizado, un cambio frente al enfoque de hardware especializado visto en otras partes de la industria . Para los desarrolladores que construyen aplicaciones agentivas sensibles a la latencia, canalizaciones de llamada a herramientas o generación de código en tiempo real, la combinación de alto rendimiento y una ventana de contexto de 1 millón de tokens señala un camino práctico hacia sistemas de producción más rápidos y capaces.
Comments
0 comments