Mode UltraSpeed ini bukanlah kelas model baru, melainkan mode penyajian (serving mode) berbasis rekayasa yang dibangun di atas MiMo-V2.5-Pro, sebuah arsitektur Mixture-of-Experts (MoE) 1,02 triliun parameter dengan 42 miliar parameter aktif dan jendela konteks 1 juta token .
Dokumentasi resmi Xiaomi menjelaskan sebuah desain bersama model-sistem full-stack yang menggabungkan tiga teknik terkoordinasi untuk mendorong throughput melewati 1.000 token/detik .
Hanya lapisan expert MoE (Mixture of Experts) yang dikuantisasi ke presisi FP4, sementara semua lapisan lainnya mempertahankan presisi aslinya . Pelatihan sadar kuantisasi (QAT) mengurangi jejak memori dan tekanan bandwidth model dengan tujuan menjaga kualitas mendekati tanpa kehilangan (near-lossless)
. Pendekatan selektif ini menghindari penurunan kualitas pada komponen non-expert yang lebih sensitif terhadap kehilangan presisi.
DFlash menggantikan pembuatan draf autoregresif tradisional dengan prediksi paralel bertopeng (masked) tingkat blok . Model draf menggunakan perhatian jendela geser (Sliding Window Attention/SWA) untuk menjaga biaya prediksi tetap hampir konstan, alih-alih bertambah seiring panjang urutan
. Optimizer Muon dan penyulingan mandiri (self-distillation) digunakan untuk meningkatkan tingkat penerimaan, yang secara langsung meningkatkan throughput inferensi
. Dalam skenario pemrograman, laporan menunjukkan panjang rata-rata yang diterima sekitar 6,30 token per langkah verifikasi
.
Sistem TileRT meninggalkan model peluncuran kernel per-operator konvensional dan beralih ke engine kernel persisten di mana pipeline komputasi tetap berada di GPU . Pengambilan awal (prefetching) pipeline penuh menumpuk pergerakan data dengan komputasi, secara dramatis mengurangi siklus GPU yang menganggur
. Sistem ini juga mengurai komunikasi, pergerakan data, dan komputasi tensor ke berbagai warp dengan peran khusus, secara efektif mengubah GPU menjadi sistem eksekusi heterogen yang mengalir secara kontinu
.
Harga input mengikuti pengali 3× yang sama, dengan input cache-hit sebesar $0,0108 per juta token dan input cache-miss sebesar $1,305 per juta token . Xiaomi memasarkan ini sebagai "3× lipat harga, 10× lipat pengalaman output," menekankan peningkatan throughput sekitar 10× lipat dengan biaya token 3× lipat
.
Periode uji coba UltraSpeed dibatasi waktunya secara eksplisit: 9 Juni hingga 23 Juni 2026, pukul 23:59 . Akses bersifat berbasis aplikasi karena sumber daya inferensi berkecepatan tinggi yang terbatas, dengan prioritas diberikan pada kasus penggunaan perusahaan dan pengembang profesional
.
Pengguna yang disetujui menerima pengalaman chat gratis selama jendela dua minggu, tunduk pada aturan keadilan: maksimum 10 entri antrian berhasil per akun per hari, batas sesi 30 menit, dan pelepasan sumber daya otomatis setelah 5 menit tidak aktif . Xiaomi tidak menjamin ketepatan waktu peninjauan atau tingkat persetujuan
.
Model dasarnya, yang disebut sebagai MiMo-V2.5-Pro-FP4-DFlash, dirilis sebagai open-source bersamaan dengan pengumuman UltraSpeed . Bobot terkuantisasi FP4 dan checkpoint model DFlash tersedia di HuggingFace, konsisten dengan dokumentasi Xiaomi yang mengidentifikasi kuantisasi FP4 dan decoding spekulatif DFlash sebagai komponen sistem inti
.
Mode UltraSpeed menunjukkan bahwa inferensi model triliunan parameter pada kecepatan interaktif dapat berjalan di infrastruktur komoditas tanpa silikon khusus, sebuah penyimpangan dari pendekatan perangkat keras khusus yang terlihat di tempat lain di industri . Bagi developer yang membangun aplikasi agentik sensitif latensi, pipeline pemanggilan alat (tool-calling), atau pembuatan kode waktu nyata, kombinasi throughput tinggi dan jendela konteks 1 juta token menandakan jalur praktis menuju sistem produksi yang lebih cepat dan lebih mumpuni — asalkan mereka bisa mendapatkan akses selama jendela uji coba terbatas ini.
Comments
0 comments