Mod UltraSpeed bukanlah kelas model baharu, tetapi mod servis dipacu kejuruteraan yang dilapiskan di atas MiMo-V2.5-Pro, sebuah seni bina Campuran Pakar (Mixture-of-Experts) 1.02 trilion parameter dengan 42 bilion parameter aktif dan tetingkap konteks 1 juta token .
Dokumentasi rasmi Xiaomi menerangkan rekabentuk bersama sistem-model tindanan penuh yang menggabungkan tiga teknik terselaras untuk menolak pemprosesan melepasi 1,000 token/s .
Hanya lapisan pakar MoE (Campuran Pakar) dikuantisasi kepada ketepatan FP4, manakala semua lapisan lain mengekalkan ketepatan asalnya . Latihan sedar kuantisasi (QAT) mengurangkan jejak memori model dan tekanan lebar jalur dengan matlamat mengekalkan kualiti hampir tanpa kehilangan
. Pendekatan terpilih ini mengelakkan kemerosotan komponen bukan pakar yang lebih sensitif terhadap kehilangan ketepatan.
DFlash menggantikan penjanaan draf autoregresif tradisional dengan ramalan selari bertopeng peringkat blok . Model draf menggunakan perhatian tetingkap gelongsor (SWA) untuk mengekalkan kos ramalan hampir malar, bukannya berskala dengan panjang jujukan
. Pengoptimum Muon dan penyulingan kendiri digunakan untuk meningkatkan kadar penerimaan, secara langsung meningkatkan pemprosesan inferens
. Dalam senario pengekodan, laporan menunjukkan purata panjang diterima sekitar 6.30 token setiap langkah verifikasi
.
Sistem TileRT meninggalkan model pelancaran kernel per-operator konvensional demi enjin kernel kekal di mana saluran paip pengiraan kekal residen pada GPU . Prapengambilan saluran paip penuh menindih pergerakan data dengan pengiraan, secara dramatik mengurangkan kitaran GPU terbiar
. Sistem ini juga menguraikan komunikasi, pergerakan data, dan pengiraan tensor merentasi warp yang berbeza dengan peranan khusus, secara berkesan mengubah GPU menjadi sistem pelaksanaan heterogen yang mengalir secara berterusan
.
Harga input mengikuti pengganda 3x yang sama, dengan input cache-hit pada $0.0108 per juta token dan input cache-miss pada $1.305 per juta token . Xiaomi memasarkan ini sebagai "3 kali ganda harga, 10 kali ganda pengalaman output," menekankan kira-kira 10 kali ganda peningkatan pemprosesan untuk kos token 3 kali ganda
.
Tempoh percubaan UltraSpeed ditetapkan secara jelas: 9 Jun hingga 23 Jun 2026, jam 23:59 . Akses adalah berasaskan permohonan kerana sumber inferens berkelajuan tinggi yang terhad, dengan keutamaan diberikan kepada kes penggunaan perusahaan dan pembangun profesional
.
Pengguna yang diluluskan menerima pengalaman sembang percuma sepanjang tetingkap dua minggu, tertakluk kepada peraturan kesaksamaan: maksimum 10 kali kemasukan giliran berjaya setiap akaun sehari, had sesi 30 minit, dan pelepasan sumber automatik selepas 5 minit melahu . Xiaomi tidak menjamin ketepatan masa semakan atau kadar kelulusan
.
Model asas, yang dirujuk sebagai MiMo-V2.5-Pro-FP4-DFlash, telah dikeluarkan sebagai sumber terbuka bersama pengumuman UltraSpeed . Pemberat terkuantisasi FP4 dan pusat pemeriksaan model DFlash tersedia di HuggingFace, selaras dengan dokumentasi Xiaomi yang mengenal pasti kuantisasi FP4 dan penyahkodan spekulatif DFlash sebagai komponen sistem teras
.
Mod UltraSpeed menunjukkan bahawa inferens model trilion parameter pada kelajuan interaktif boleh berjalan pada infrastruktur komoditi tanpa silikon tersuai, satu pendekatan berbeza daripada kaedah perkakasan khusus yang dilihat di tempat lain dalam industri . Bagi pembangun yang membina aplikasi ejen sensitif kependaman, saluran paip panggilan alat, atau penjanaan kod masa nyata, gabungan pemprosesan tinggi dan tetingkap konteks 1 juta token menandakan laluan praktikal ke arah sistem pengeluaran yang lebih pantas dan lebih berkeupayaan — dengan syarat mereka mendapat akses semasa tetingkap percubaan terhad.
Comments
0 comments