Bei UltraSpeed handelt es sich nicht um eine neue Modellklasse, sondern um einen Serving-Modus, der auf MiMo-V2.5-Pro aufsetzt – einer Mixture-of-Experts-Architektur mit 1,02 Billionen Gesamtparametern, 42 Milliarden aktiven Parametern und einem Kontextfenster von 1 Million Tokens .
In der offiziellen Dokumentation beschreibt Xiaomi ein voll integriertes Modell-System-Co-Design, das drei aufeinander abgestimmte Techniken kombiniert, um den Durchsatz auf über 1.000 Tokens/s zu katapultieren .
Quantisiert werden ausschließlich die MoE-Expertenebenen (Mixture of Experts) auf FP4-Präzision. Alle anderen Schichten behalten ihre ursprüngliche Genauigkeit . Dank Quantization-Aware Training (QAT) verringert sich der Speicherbedarf und die Bandbreitenbelastung drastisch, während die Modellqualität nahezu verlustfrei erhalten bleiben soll
.
DFlash ersetzt die klassische autoregressive Entwurfserstellung durch eine blockbasierte, maskierte Parallelvorhersage . Ein sogenanntes Draft-Modell nutzt Sliding-Window-Attention (SWA), um die Rechenkosten für die Vorhersage nahezu konstant zu halten – unabhängig von der Sequenzlänge
. Muon-Optimierer und Self-Distillation verbessern die Akzeptanzrate und steigern so direkt den Inferenzdurchsatz
. In Tests beim Programmieren lag die durchschnittliche akzeptierte Länge bei rund 6,30 Tokens pro Verifikationsschritt
.
Das TileRT-System verabschiedet sich vom konventionellen Start einzelner Operatoren (per-operator kernel launch). Stattdessen kommt eine persistente Kernel-Engine zum Einsatz, bei der die gesamte Compute-Pipeline dauerhaft auf der GPU verbleibt . Full-Pipeline-Prefetching überlappt Datentransporte und Berechnungen, was GPU-Leerlaufzeiten drastisch minimiert
. Zusätzlich werden Kommunikation, Datentransfer und Tensorberechnung spezialisierten Warps zugewiesen – die GPU wird so zu einem kontinuierlich fließenden, heterogenen Ausführungssystem
.
Der UltraSpeed-API-Testpreis liegt exakt beim Dreifachen der Standard-Output-Preise von MiMo-V2.5-Pro .
Eingabe-Tokens folgen demselben 3-fach-Multiplikator: Cache-Hits schlagen mit 0,0108 US-Dollar pro Million zu Buche, Cache-Misses mit 1,305 US-Dollar pro Million . Xiaomi vermarktet dies unter dem Slogan „3-facher Preis, 10-fache Ausgabe-Erfahrung“
.
Die UltraSpeed-Testphase ist klar definiert: vom 9. Juni bis zum 23. Juni 2026, 23:59 Uhr . Der Zugang erfolgt nur auf Antrag – was an den begrenzten Hochgeschwindigkeits-Ressourcen liegt. Bevorzugt werden Unternehmen und professionelle Entwickler
.
Wer zugelassen wird, erhält während der zwei Wochen eine kostenlose Chat-Nutzung, allerdings mit Fairness-Regeln: maximal 10 erfolgreiche Warteschlangen-Eintritte pro Konto und Tag, Sitzungen sind auf 30 Minuten begrenzt und bei 5 Minuten Inaktivität werden die Ressourcen automatisch freigegeben . Xiaomi gibt keine Garantie auf Bearbeitungsgeschwindigkeit oder Zulassungsquote
.
Das zugrundeliegende Modell MiMo-V2.5-Pro-FP4-DFlash wurde parallel zur UltraSpeed-Ankündigung als Open Source zugänglich gemacht . Die FP4-quantisierten Gewichte und DFlash-Modell-Checkpoints liegen auf HuggingFace – passend zur Dokumentation, die FP4-Quantisierung und DFlash Speculative Decoding als Kernkomponenten identifiziert
.
Der UltraSpeed-Modus beweist, dass eine Billionen-Parameter-Inferenz in interaktiver Geschwindigkeit auf handelsüblicher Infrastruktur möglich ist – ein Kontrast zu den Ansätzen mit Spezial-Hardware . Für Entwickler, die latenzkritische agentische Anwendungen, Tool-Calling-Pipelines oder Code-Generierung in Echtzeit bauen, eröffnet die Kombination aus hohem Durchsatz und dem 1-Millionen-Token-Kontextfenster einen praktischen Weg zu schnelleren, leistungsfähigeren Produktivsystemen – vorausgesetzt, sie erhalten in der kurzen Testphase Zugang.
Comments
0 comments