值得注意的是,UltraSpeed 並不是一個全新的模型,而是一個純工程驅動的服務模式,它是建立在 MiMo-V2.5-Pro 這個具備 1.02 萬億總參數、420 億活躍參數,且支援 100 萬 token 超長上下文的混合專家(MoE)架構之上 。
這項技術只針對 MoE 架構中的「專家層」進行 FP4 格式的量化,而模型其他部分則保有原本的精準度 。這種選擇性量化搭配量化感知訓練(QAT),目的就是在大幅縮減模型體積、榨乾記憶體頻寬的同時,將能力損耗控制在近乎無感的範圍內
。團隊聰明地避開了對精度更敏感的非專家網路組件,避免因小失大。
有別於傳統一個字一個字猜的自迴歸解碼,DFlash 採用了一種區塊級的遮罩並行預測來產出草稿 。它透過滑動視窗注意力(SWA)機制,讓草稿模型的預測算力維持在一個近乎恆定的水準,不會隨著序列長度而倍數放大。再搭配 Muon 優化器與自蒸餾訓練來提升候選 token 的接受率,最終直接轉換為推理吞吐的實質躍升
。
TileRT 系統則是從根本上捨棄了傳統推理引擎一次一個算子啟動核心的作法,改為「常駐核心引擎」,讓整個計算管線就像是工廠流水線般持續在 GPU 上流轉 。全鏈路的資料預取讓數據搬移與計算極致重疊,徹底消滅了 GPU 的閒置空隙
。更進一步,系統將通訊、資料搬運、張量計算等任務,拆解給 GPU 內不同的執行緒束各司其職,把原本單一的 GPU 轉變成了一個持續流動、精密協作的異構執行系統
。
UltraSpeed 的體驗價正好是標準版 MiMo-V2.5-Pro 的 3 倍 。換言之,開發者可以用原先 3 倍的每 token 成本,換取約 10 倍的生成速度提升,這無疑是官方喊出「三倍價格,十倍輸出體驗」口號的底氣所在
。
由於高速推理的資源十分有限,這次的 UltraSpeed 體驗並非全面開放,而是一個為期兩週的申請制限時體驗窗口:從 2026 年 6 月 9 日 到 6 月 23 日 23:59 。官方明確表示將優先審核具備真實業務需求的企業與專業開發者
。
通過審核的用戶可以在這期間免費體驗 Chat 功能,但為了在資源吃緊下維持公平性,遊戲規則也相當明確:每個帳號每天最多排隊成功使用 10 次,一次對話最長 30 分鐘,只要閒置超過 5 分鐘,系統就會自動釋放資源 。小米官方也貼心提醒,他們不保證審核速度與通過率
。
伴隨 UltraSpeed 模式一同亮相的,還有名為 MiMo-V2.5-Pro-FP4-DFlash 的基礎模型,它已經在 HuggingFace 上全面開源 。不僅有 FP4 格式量化後的權重,DFlash 模型的檢查點也一併提供。這恰好與官方技術文檔將 FP4 量化與 DFlash 推測解碼視為核心系統組件的說法完全吻合,顯示小米不僅想在商業上驗證極速推理,也願意把這套技術路徑背後的模型實例分享給開源社群
。
Comments
0 comments