小米MiMo極速模式登場 8張標準GPU推萬億參數模型破1000 tokens/s | 回答 | Studio Global AI

← Back to Trending

答案已發布4 天前Last edited 4 天前26 來源

小米MiMo極速模式登場 8張標準GPU推萬億參數模型破1000 tokens/s

2026年6月，小米MiMo同TileRT發布咗MiMo V2.5 Pro UltraSpeed模式，成為全球首個喺單一標準8 GPU伺服器（而唔係訂製晶片）上，將萬億參數模型解碼速度突破每秒1,000 tokens嘅里程碑 [6][7][9]。速度突破靠嘅係三項核心技術協同：專攻MoE專家層嘅FP4混合精度量化、用區塊級Masked並行預測取代傳統自迴歸嘅DFlash推測解碼、以及TileRT嘅常駐核心引擎同Warp層級異構流水線協作 [2][4][39]。

使用 Studio Global AI 搜尋並查核事實瀏覽更多熱門頁面

171K0

Conceptual visualization of Xiaomi MiMo-V2.5-Pro-UltraSpeed achieving over 1,000 tokens per second on a trillion-parameter model using standard GPUs. — What did Xiaomi announce on June 6, 2026 regarding MiMo-V2.5-Pro-UltraSpeed, including the specific tokens-per-second milestone achieved onA conceptual representation of high-speed AI inference on standard GPU hardware.
AI 提示
Create a landscape editorial hero image for this Studio Global article: What did Xiaomi announce on June 6, 2026 regarding MiMo-V2.5-Pro-UltraSpeed, including the specific tokens-per-second milestone achieved on. Article summary: On **June 8, 2026** (with major reports appearing on June 9), Xiaomi's MiMo team, in collaboration with TileRT, announced **MiMo-V2.5-Pro-UltraSpeed** — a new high-speed inference mode for its trillion-parameter flagship. Topic tags: general, general web, user generated, documentation. Reference image context from search candidates: Reference image 1: visual subject "# Xiaomi rolls out MiMo V2.5 with multimodal AI and improved efficiency. Xiaomi has introduced its MiMo-V2.5 model family, adding multimodal capabilities and advancing its push int" source context "Xiaomi rolls out MiMo V2.5 with multimodal AI and improved efficiency" Reference image 2: visual subje
openai.com

2026年6月8號晚，小米MiMo技術團隊聯同推理拍檔TileRT正式發布咗MiMo-V2.5-Pro-UltraSpeed模式，呢個係MiMo-V2.5-Pro模型家族嘅一個高速推理服務模式。

成個發布嘅焦點落喺一個數字上：一個有成1萬億參數（1 Trillion）嘅模型，輸出速度突破每秒1,000個Token，而且係喺一張有8張標準GPU嘅普通伺服器節點上跑到，完全唔使用乜嘢訂製晶片。小米話呢個係業界喺呢個規模上嘅第一次。

速度有幾癲？

根據小米同TileRT嘅報告，呢個模式可以穩定咁保持每秒超過1,000個Token嘅輸出吞吐量，示範入面高峯期甚至見過接近每秒1,200個Token 。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

人們還問

「小米MiMo極速模式登場 8張標準GPU推萬億參數模型破1000 tokens/s」的簡短答案是什麼？

2026年6月，小米MiMo同TileRT發布咗MiMo V2.5 Pro UltraSpeed模式，成為全球首個喺單一標準8 GPU伺服器（而唔係訂製晶片）上，將萬億參數模型解碼速度突破每秒1,000 tokens嘅里程碑 [6][7][9]。

首先要驗證的關鍵點是什麼？

2026年6月，小米MiMo同TileRT發布咗MiMo V2.5 Pro UltraSpeed模式，成為全球首個喺單一標準8 GPU伺服器（而唔係訂製晶片）上，將萬億參數模型解碼速度突破每秒1,000 tokens嘅里程碑 [6][7][9]。速度突破靠嘅係三項核心技術協同：專攻MoE專家層嘅FP4混合精度量化、用區塊級Masked並行預測取代傳統自迴歸嘅DFlash推測解碼、以及TileRT嘅常駐核心引擎同Warp層級異構流水線協作 [2][4][39]。

接下來在實務上我該做什麼？

為咗展示技術唔係紙上談兵，小米同步將底層模型MiMo V2.5 Pro FP4 DFlash開源，FP4權重同DFlash檢查點都放晒上HuggingFace，貫徹佢哋推動高速推理普及化嘅方向 [6][10][37]。

來源

Comments

0 comments

Loading comments...