Chế độ UltraSpeed không phải là một lớp mô hình mới, mà là một chế độ phục vụ (serving mode) được tối ưu hóa bằng kỹ thuật, xây dựng trên nền tảng MiMo-V2.5-Pro — một kiến trúc Hỗn hợp Chuyên gia (MoE) 1,02 nghìn tỷ tham số với 42 tỷ tham số kích hoạt và cửa sổ ngữ cảnh 1 triệu token .
Tài liệu chính thức của Xiaomi mô tả một thiết kế đồng bộ toàn diện giữa mô hình và hệ thống (full-stack model-system co-design), kết hợp ba kỹ thuật phối hợp để đẩy thông lượng vượt qua mốc 1.000 token/s .
Chỉ các lớp chuyên gia (expert layers) trong kiến trúc MoE được lượng tử hóa xuống độ chính xác FP4, trong khi tất cả các lớp khác vẫn giữ nguyên độ chính xác gốc . Quá trình huấn luyện nhận biết lượng tử hóa (QAT) giúp giảm đáng kể dung lượng bộ nhớ của mô hình và áp lực băng thông, với mục tiêu duy trì chất lượng gần như không suy hao
. Cách tiếp cận có chọn lọc này tránh làm suy giảm các thành phần không phải chuyên gia, vốn nhạy cảm hơn với việc mất độ chính xác.
DFlash thay thế quá trình tạo phác thảo tự hồi quy truyền thống bằng dự đoán song song có che (masked parallel prediction) ở cấp độ khối . Mô hình phác thảo sử dụng cơ chế chú ý cửa sổ trượt (SWA) để giữ chi phí dự đoán gần như không đổi, thay vì tăng theo độ dài chuỗi
. Bộ tối ưu hóa Muon và kỹ thuật tự chưng cất (self-distillation) được sử dụng để cải thiện tỷ lệ chấp nhận, trực tiếp thúc đẩy thông lượng suy luận
. Trong các tình huống lập trình, báo cáo cho thấy độ dài được chấp nhận trung bình khoảng 6,30 token cho mỗi bước xác minh
.
Hệ thống TileRT từ bỏ mô hình khởi chạy nhân cho từng toán tử (per-operator kernel launch) thông thường, thay vào đó là một công cụ nhân bền vững (persistent kernel engine), nơi toàn bộ pipeline tính toán thường trú trên GPU . Cơ chế nạp trước toàn pipeline (full-pipeline prefetching) chồng lấp việc di chuyển dữ liệu với tính toán, giảm thiểu đáng kể các chu kỳ GPU nhàn rỗi
. Hệ thống cũng phân tách các tác vụ giao tiếp, di chuyển dữ liệu và tính toán tensor cho các nhóm luồng xử lý (warp) khác nhau với vai trò chuyên biệt, biến GPU thành một hệ thống thực thi không đồng nhất, luân chuyển liên tục
.
Giá dùng thử của API UltraSpeed được đặt chính xác gấp 3 lần giá đầu ra của MiMo-V2.5-Pro tiêu chuẩn .
Giá đầu vào cũng theo hệ số nhân 3 tương tự, với đầu vào trúng bộ nhớ đệm (cache-hit) là $0,0108 mỗi triệu token và đầu vào trượt bộ nhớ đệm (cache-miss) là $1,305 mỗi triệu token . Xiaomi tiếp thị đây là "Giá gấp 3 lần, Trải nghiệm đầu ra gấp 10 lần", nhấn mạnh mức tăng thông lượng gấp khoảng 10 lần cho chi phí token gấp 3 lần
.
Giai đoạn dùng thử UltraSpeed được giới hạn thời gian rõ ràng: từ ngày 9 tháng 6 đến 23:59 ngày 23 tháng 6 năm 2026 . Việc truy cập dựa trên đơn đăng ký do nguồn lực suy luận tốc độ cao có hạn, ưu tiên các trường hợp sử dụng của doanh nghiệp và nhà phát triển chuyên nghiệp
.
Người dùng được phê duyệt sẽ nhận được trải nghiệm trò chuyện miễn phí trong thời gian hai tuần, tuân theo các quy tắc công bằng: tối đa 10 lần vào hàng đợi thành công mỗi tài khoản mỗi ngày, giới hạn phiên 30 phút và tự động giải phóng tài nguyên sau 5 phút không hoạt động . Xiaomi không đảm bảo về thời gian xét duyệt hay tỷ lệ chấp thuận
.
Mô hình cơ sở, được gọi là MiMo-V2.5-Pro-FP4-DFlash, đã được phát hành dưới dạng mã nguồn mở cùng với thông báo UltraSpeed . Các trọng số đã lượng tử hóa FP4 và điểm kiểm tra (checkpoint) mô hình DFlash có sẵn trên HuggingFace, phù hợp với tài liệu của Xiaomi xác định lượng tử hóa FP4 và giải mã suy đoán DFlash là các thành phần hệ thống cốt lõi
.
Chế độ UltraSpeed chứng minh rằng suy luận mô hình nghìn tỷ tham số ở tốc độ tương tác có thể chạy trên hạ tầng phổ thông mà không cần chip tùy chỉnh, một hướng đi khác biệt so với cách tiếp cận dựa vào phần cứng chuyên dụng thường thấy ở những nơi khác trong ngành . Đối với các nhà phát triển đang xây dựng các ứng dụng tác tử (agentic) nhạy cảm với độ trễ, pipeline gọi công cụ hoặc tạo mã thời gian thực, sự kết hợp giữa thông lượng cao và cửa sổ ngữ cảnh 1 triệu token báo hiệu một con đường thực tế hướng tới các hệ thống sản xuất nhanh hơn, mạnh mẽ hơn — miễn là họ có thể giành được quyền truy cập trong thời gian dùng thử giới hạn.
Comments
0 comments