呢次突破打破咗小米口中業界嘅「不可能三角」——就係速度夠快、模型能力夠強、但又唔使用專用晶片,三樣嘢冇可能同時達成。而家MiMo團隊話佢哋做到咗 。小米創辦人雷軍都特登喺微博出Post,話呢次係「業內首次在1萬億參數模型上突破1000 tokens/秒的輸出速度」
。
你可能會問,MiMo-V2.5-Pro本身係咩來頭?佢係一個1.02萬億參數嘅混合專家(MoE)架構模型,入面有420億個活躍參數,支援最長100萬Token嘅上下文窗口 。而呢個UltraSpeed模式並唔係一個全新模型,而係建基於現有模型,靠工程實力硬生生「榨」出嚟嘅加速版本。
做法係透過「量化感知訓練」(QAT),喺大幅縮減模型體積、減少記憶體頻寬壓力嘅同時,令到模型嘅表現能力可以保持喺近乎無損嘅水平 。呢種「選擇性減肥」嘅策略,就避免咗搞到嗰啲對精度好敏感嘅非專家組件表現跌Watt。
佢嘅Draft模型用咗滑動窗口注意力(SWA),令到預測成本幾乎固定,唔會因為你段嘢越嚟越長就拖慢晒 。再配合Muon優化器同自蒸餾技術去提高「接受率」(即係估中嘅機率),直接轉化為實質嘅推理吞吐量提升
。有報告指出,喺編程場景入面,平均每次驗證可以接受嘅長度去到約6.30個Token
,效率相當唔錯。
透過全鏈路預取,將數據搬運同計算嘅時間重疊到極致,大大減少GPU發呆等嘢做嘅空轉時間 。佢哋仲將通訊、數據搬運同張量計算拆解到唔同嘅Warp(線程束),各自有專門嘅角色,等成個GPU變到好似一個持續流動、精密協作嘅異構執行系統咁
。
輸入價格都係跟呢個3倍乘數去計,命中快取嘅輸入每百萬Token收0.0108美元,未命中快取嘅就收1.305美元 。小米嘅宣傳口號就係「3倍價格提升,10倍輸出體驗」,強調你用多3倍嘅錢,但吞吐量提升咗大約10倍
。
成功批核咗嘅用戶,可以喺呢兩個星期嘅窗口期內免費玩Chat體驗,但就要守公平使用規則:每個帳號每日最多排隊入10次、每次傾偈最長30分鐘、同埋如果超過5分鐘冇郁過,系統就會自動放返你啲資源出嚟 。小米仲講到明,「提交申請後不承諾審核時效性和審核通過率」,所以想玩就要快手同埋唔好咁老定
。
對於嗰啲要做對延遲好敏感嘅AI代理應用(Agentic Applications)、工具調用流程(Tool-Calling Pipelines)、又或者實時代碼生成嘅開發者嚟講,呢個「高吞吐量再加100萬Token超長上下文窗口」嘅組合,代表住一條邁向更快、更強生產系統嘅實用路徑——當然大前提係你要喺個咁短嘅試用期入面,成功拎到佢哋嘅批核先有得玩。
Comments
0 comments