نمط UltraSpeed ليس فئة نموذج جديدة، بل هو نمط تقديم مدفوع بالهندسة مبني فوق MiMo-V2.5-Pro، وهو نموذج ببنية خليط الخبراء (Mixture-of-Experts) يحتوي على 1.02 تريليون معلمة، مع 42 مليار معلمة نشطة، ونافذة سياق تصل إلى مليون رمز .
تصف الوثائق الرسمية لشركة شاومي تصميماً مشتركاً كامل المكدس بين النموذج والنظام يجمع بين ثلاث تقنيات منسقة لدفع الإنتاجية إلى ما يتجاوز 1000 رمز/ثانية .
يتم تكميم طبقات الخبراء (MoE Experts) فقط إلى دقة FP4، بينما تحتفظ جميع الطبقات الأخرى بدقتها الأصلية . يقلل التدريب المدرك للتكميم (QAT) من البصمة الذاكرية للنموذج وضغط عرض النطاق الترددي بهدف الحفاظ على جودة شبه مثالية
. يتجنب هذا النهج الانتقائي تدهور أداء المكونات غير الخبيرة الأكثر حساسية لفقدان الدقة.
يستبدل DFlash التوليد التوقعي التقليدي ذاتي الانحدار بتنبؤ متوازٍ مقنع على مستوى الكتل . يستخدم النموذج المسودّ (Draft Model) انتباه النافذة المنزلقة (SWA) للحفاظ على تكلفة التنبؤ شبه ثابتة، بدلاً من زيادتها مع طول التسلسل
. يُستخدم مُحسِّن Muon والتقطير الذاتي لتحسين معدلات القبول، مما يعزز إنتاجية الاستدلال بشكل مباشر
. في سيناريوهات البرمجة، تشير التقارير إلى متوسط طول مقبول يبلغ حوالي 6.30 رمز لكل خطوة تحقق
.
يتخلى نظام TileRT عن نموذج إطلاق النواة التقليدي لكل عامل (per-operator kernel launch) لصالح محرك نواة دائمة حيث يبقى خط أنابيب الحوسبة مقيماً على وحدة GPU . يقوم الجلب المسبق لخط الأنابيب الكامل بتداخل حركة البيانات مع الحوسبة، مما يقلل بشكل كبير من دورات وحدة GPU الخاملة
. يقوم النظام أيضاً بتفكيك الاتصالات وحركة البيانات وحوسبة الموترات عبر مجموعات خيوط (warps) مختلفة بأدوار مخصصة، مما يحول وحدة GPU فعلياً إلى نظام تنفيذ غير متجانس يتدفق باستمرار
.
يتبع تسعير الإدخال نفس مضاعف 3x، حيث يبلغ سعر الإدخال عند إصابة ذاكرة التخزين المؤقت 0.0108 دولار لكل مليون رمز، والإدخال عند فقدان ذاكرة التخزين المؤقت 1.305 دولار لكل مليون رمز . تسوق شاومي هذا على أنه "3 أضعاف السعر، 10 أضعاف تجربة الإخراج"، مع التركيز على تحقيق زيادة في الإنتاجية تقارب 10 أضعاف مقابل 3 أضعاف تكلفة الرمز
.
فترة تجربة UltraSpeed محددة زمنياً بشكل صريح: من 9 يونيو إلى 23 يونيو 2026، حتى الساعة 23:59 . يعتمد الوصول على تقديم طلب نظراً لمحدودية موارد الاستدلال عالي السرعة، مع إعطاء الأولوية لحالات استخدام المؤسسات والمطورين المحترفين
.
يحصل المستخدمون المعتمدون على تجربة محادثة مجانية خلال نافذة الأسبوعين، مع مراعاة قواعد الاستخدام العادل: حد أقصى يبلغ 10 مرات دخول ناجحة إلى قائمة الانتظار لكل حساب يومياً، وحد أقصى للجلسة يبلغ 30 دقيقة، وتحرير تلقائي للموارد بعد 5 دقائق من الخمول . لا تضمن شاومي توقيت المراجعة أو معدلات القبول
.
تم إصدار النموذج الأساسي، المشار إليه باسم MiMo-V2.5-Pro-FP4-DFlash، كمصدر مفتوح بالتزامن مع إعلان UltraSpeed . أوزان FP4 المُكمَّمة ونقاط تحقق نموذج DFlash متاحة على منصة HuggingFace، بما يتوافق مع وثائق شاومي التي تحدد تكميم FP4 وفك التشفير التوقعي DFlash كمكونات أساسية للنظام
.
يثبت نمط UltraSpeed أن استدلال نماذج تريليون معلمة بسرعات تفاعلية يمكن تشغيله على بنية تحتية تجارية دون الحاجة إلى سيليكون مخصص، وهو خروج عن نهج العتاد المتخصص السائد في أماكن أخرى من الصناعة . بالنسبة للمطورين الذين يبنون تطبيقات وكيلة (agentic) حساسة للوقت، أو خطوط أنابيب استدعاء الأدوات، أو توليد الأكواد في الوقت الفعلي، فإن الجمع بين الإنتاجية العالية ونافذة سياق تبلغ مليون رمز يشير إلى مسار عملي نحو أنظمة إنتاج أسرع وأكثر قدرة - شريطة أن يتمكنوا من الوصول خلال نافذة التجربة المحدودة.
Comments
0 comments