โหมด UltraSpeed ไม่ใช่โมเดลประเภทใหม่ แต่เป็นโหมดการให้บริการที่ขับเคลื่อนด้วยวิศวกรรมขั้นสูง ซึ่งพัฒนาต่อยอดจาก MiMo-V2.5-Pro โมเดลสถาปัตยกรรมแบบ Mixture-of-Experts (MoE) ขนาด 1.02 ล้านล้านพารามิเตอร์ ที่มีพารามิเตอร์ที่ใช้งานจริง 42,000 ล้านตัว และหน้าต่างบริบท (Context Window) ยาวถึง 1 ล้านโทเค็น
เอกสารอย่างเป็นทางการของ Xiaomi อธิบายถึงการออกแบบร่วมกันระหว่างโมเดลและระบบแบบ Full-Stack ที่ผสาน 3 เทคนิคหลักเพื่อผลักดันความเร็วให้ทะลุ 1,000 โทเค็น/วินาที
เทคนิคนี้จะลดความแม่นยำของข้อมูลเฉพาะในเลเยอร์ผู้เชี่ยวชาญ (MoE Experts) ให้เหลือเพียงรูปแบบ FP4 ในขณะที่เลเยอร์อื่นๆ ยังคงความแม่นยำดั้งเดิมไว้ การเรียนรู้แบบรับรู้การควอนไทซ์ (Quantization-Aware Training หรือ QAT) ช่วยลดขนาดหน่วยความจำและแรงกดดันด้านแบนด์วิธของโมเดล โดยมีเป้าหมายเพื่อรักษาคุณภาพของโมเดลให้ใกล้เคียงกับเดิมมากที่สุด (Near-Lossless)
วิธีการนี้หลีกเลี่ยงการลดประสิทธิภาพของส่วนประกอบที่ไม่ใช่ผู้เชี่ยวชาญ ซึ่งมีความอ่อนไหวต่อการสูญเสียความแม่นยำมากกว่า
DFlash เข้ามาแทนที่การสร้างชุดคำแบบ Autoregressive (การทำนายทีละคำ) แบบดั้งเดิมด้วยการทำนายแบบขนานในระดับบล็อก (Block-level Masked Parallel Prediction) โมเดลร่าง (Draft Model) ใช้ Sliding-Window Attention (SWA) เพื่อให้ต้นทุนในการทำนายแทบจะคงที่ ไม่เพิ่มขึ้นตามความยาวของข้อความ
มีการใช้ Muon Optimizer และการกลั่นความรู้ด้วยตนเอง (Self-Distillation) เพื่อเพิ่มอัตราการยอมรับ (Acceptance Rate) ซึ่งส่งผลโดยตรงต่อการเพิ่มประสิทธิภาพของระบบ
ในสถานการณ์การเขียนโค้ด มีรายงานว่าความยาวเฉลี่ยที่ระบบยอมรับได้อยู่ที่ประมาณ 6.30 โทเค็นต่อหนึ่งขั้นตอนการตรวจสอบ
ระบบ TileRT ยกเลิกโมเดลการเรียกใช้เคอร์เนลแบบแยกส่วน (Per-Operator Kernel Launch) แบบเดิม แล้วหันมาใช้ระบบ Persistent Kernel Engine ที่กระบวนการคำนวณทั้งหมดจะคงอยู่บน GPU ตลอดเวลา การดึงข้อมูลล่วงหน้าตลอดทั้งกระบวนการ (Full-Pipeline Prefetching) ทำให้การเคลื่อนย้ายข้อมูลและการคำนวณเกิดขึ้นซ้อนทับกันได้ ซึ่งลดเวลาว่างเปล่าของ GPU ลงอย่างมาก
นอกจากนี้ ระบบยังแยกแยะงานด้านการสื่อสาร การเคลื่อนย้ายข้อมูล และการคำนวณเทนเซอร์ ให้ทำงานบน Warp ต่างๆ ที่มีบทบาทเฉพาะตัว เปลี่ยน GPU ให้กลายเป็นระบบประมวลผลที่ไหลลื่นต่อเนื่องและทำงานร่วมกันอย่างซับซ้อน (Heterogeneous Execution System)
ราคาอินพุตก็ใช้ตัวคูณ 3 เท่าเช่นกัน โดยอินพุตแบบ Cache-Hit อยู่ที่ $0.0108 ต่อ 1 ล้านโทเค็น และ Cache-Miss อยู่ที่ $1.305 ต่อ 1 ล้านโทเค็น Xiaomi ทำตลาดสิ่งนี้ด้วยสโลแกน "3× the price, 10× the output experience" โดยเน้นว่าจ่ายแพงขึ้น 3 เท่า แต่ได้ความเร็วเพิ่มขึ้นประมาณ 10 เท่า
ช่วงทดลองใช้ UltraSpeed ถูกจำกัดเวลาอย่างชัดเจน: ตั้งแต่วันที่ 9 มิถุนายน ถึง 23 มิถุนายน 2026 เวลา 23:59 น. การเข้าถึงเป็นแบบยื่นคำขอ เนื่องจากทรัพยากรสำหรับการประมวลผลความเร็วสูงมีจำกัด โดยจะให้สิทธิ์กับกรณีการใช้งานขององค์กรและนักพัฒนามืออาชีพเป็นลำดับแรก
ผู้ใช้ที่ได้รับการอนุมัติจะได้รับประสบการณ์การแชทฟรีในช่วงเวลา 2 สัปดาห์นี้ ภายใต้กฎเกณฑ์ที่เป็นธรรม: แต่ละบัญชีเข้าคิวสำเร็จได้สูงสุด 10 ครั้งต่อวัน, จำกัดเซสชันละ 30 นาที และระบบจะคืนทรัพยากรให้อัตโนมัติหากไม่มีการใช้งานเกิน 5 นาที ทั้งนี้ Xiaomi ไม่รับประกันระยะเวลาในการตรวจสอบหรืออัตราการอนุมัติ
ตัวโมเดลพื้นฐาน ซึ่งถูกเรียกว่า MiMo-V2.5-Pro-FP4-DFlash ได้ถูกปล่อยออกมาเป็นโอเพนซอร์สพร้อมกับการประกาศเปิดตัว UltraSpeed น้ำหนักโมเดลแบบ FP4 และ DFlash Model Checkpoints พร้อมให้ดาวน์โหลดบน HuggingFace ซึ่งสอดคล้องกับเอกสารของ Xiaomi ที่ระบุว่า FP4 Quantization และ DFlash Speculative Decoding เป็นองค์ประกอบหลักของระบบ
โหมด UltraSpeed แสดงให้เห็นว่าการประมวลผลโมเดลระดับล้านล้านพารามิเตอร์ที่ความเร็วระดับโต้ตอบได้ทันที (Interactive Speed) สามารถทำงานบนโครงสร้างพื้นฐานแบบมาตรฐานได้ โดยไม่ต้องใช้ซิลิคอนที่สั่งทำพิเศษ ซึ่งแตกต่างจากแนวทางที่พึ่งพาฮาร์ดแวร์เฉพาะทางในอุตสาหกรรม สำหรับนักพัฒนาที่กำลังสร้างแอปพลิเคชันเอเจนต์ที่ไวต่อความหน่วง, ระบบที่ต้องเรียกใช้เครื่องมือต่อเนื่อง หรือการสร้างโค้ดแบบเรียลไทม์ การผสมผสานระหว่างความเร็วสูงและหน้าต่างบริบท 1 ล้านโทเค็นนี้ ถือเป็นเส้นทางที่นำไปสู่ระบบการผลิตที่รวดเร็วและมีความสามารถมากขึ้น โดยมีเงื่อนไขว่าพวกเขาจะต้องเข้าถึงได้ภายในช่วงทดลองใช้งานที่จำกัดนี้
Comments
0 comments