UltraSpeed 并非一个全新的模型,而是基于 MiMo-V2.5-Pro(一个拥有 1.02 万亿总参数、420 亿激活参数、支持 100 万 Token 上下文的 MoE 混合专家模型)的工程化服务模式 。
它让一个轻量的草稿模型采用滑动窗口注意力(SWA)进行低成本预测,把计算开销压到常数级,再由万亿参数的大模型并行验证。配合 Muon 优化器与自蒸馏技术,每次验证能接受的 Token 平均长度大幅提升,直接转化为实打实的吞吐量 。在编程场景下,其单次验证平均可接受约 6.30 个 Token
。
更精细的是,团队将通信、数据搬运、张量计算拆解到不同的 GPU 线程束(Warp)上去“各司其职”,把 GPU 变成了一个持续流动的精密工厂,从全链路预取到计算的重叠优化,几乎消除了 GPU 的空转等待 。
为了推动高性能推理的普及,小米将 UltraSpeed 的基座模型 MiMo-V2.5-Pro-FP4-DFlash 进行了开源 。开发者和研究者可以在 HuggingFace 上直接获取 FP4 量化权重与 DFlash 的相关模型参数
。
Comments
0 comments