この発表で小米は、「速さ」「性能」「汎用GPUでの実現」の三つを同時に満たせないという、業界の「不可能の三角形」を打ち破ったと宣言しています 。小米の創業者であり会長兼CEOの雷軍氏も自らのSNSでこの成果を取り上げ、1兆パラメーターモデルでの1000トークン/秒超えは業界初だと強調しました
。特筆すべきは、この高速処理が、特別な専用シリコンではなく、Commodity GPU(汎用品のGPU)8基を搭載した標準的なサーバーノード1台で実現されている点です
。つまり、私たち開発者にとって馴染み深い、一般的なインフラ環境でこの速度が出せる、という点に大きな意義があります。
モデルの大部分ではなく、MoE(Mixture of Experts)アーキテクチャの「エキスパート層」のみを対象に、FP4という極めて低い精度(4ビット浮動小数点)に量子化します。その他の成分は元の精度(FP16やBF16など)のまま保持します 。
これにより、量子化による品質劣化を最小限に抑えつつ、モデルのメモリ占有量とGPUメモリ帯域幅への負荷(いわゆる「メモリ律速」問題)を劇的に低減します。量子化を考慮した学習(QAT)を併用することで、量子化前とほぼ同等の性能を維持することを目指しています 。
DFlashでは、逐次的な生成ではなく、「ブロックレベルのマスク並列予測」を採用しています。Draftモデルがスライディングウィンドウアテンション(SWA)を用いることで、将来予測の計算コストを系列長に依存しない定数時間に抑えています 。これにMuonオプティマイザと自己蒸留を組み合わせ、検証時のトークン受入率(Acceptance Rate)を向上させることで、推論全体のスループットを底上げします
。コーディングシナリオでは、検証ステップごとに平均6.30トークンが受理されたという報告もあります
。
入力価格も同様に3倍で、キャッシュヒット時は100万トークンあたり$0.0108、キャッシュミス時は$1.305です 。小米はこの価格体系を**「3倍の価格で、10倍の出力体験」**と表現し、コスト上昇を上回る速度向上(約10倍)をマーケティング上の訴求点としています
。
この高速API体験は、期間と利用者が限定されています。
今回の発表のもう一つの重要なポイントは、基盤技術の公開です。UltraSpeedモードの裏側にあるモデル「MiMo-V2.5-Pro-FP4-DFlash」が、オープンソースとしてHuggingFace上で公開されました 。公開内容には、FP4で量子化された重みと、DFlashのモデルチェックポイントが含まれています
。これにより、開発者は自身の環境でこの高速モデルを検証したり、応用研究に活用したりすることが可能です。
レイテンシ(応答遅延)に敏感な「エージェントアプリケーション」や、動的にツールを呼び出すパイプライン、リアルタイムのコード生成といった分野において、この圧倒的なスループットと100万トークンの広大なコンテキストウィンドウの組み合わせは、実用的な製品開発を大きく加速させる可能性を秘めています。トライアル期間の枠を勝ち取ることができれば、その一端をいち早く体験できるでしょう。
Comments
0 comments