חשוב להבין: מצב ה-UltraSpeed אינו דור חדש של מודל, אלא שכבה הנדסית חכמה המתלבשת מעל MiMo-V2.5-Pro. זהו מודל ארכיטקטורת Mixture-of-Experts (MoE) בעל 1.02 טריליון פרמטרים, שרק 42 מיליארד מהם פעילים בו-זמנית, המסוגל להתמודד עם חלון הקשר (Context Window) עצום של מיליון טוקנים .
התיעוד הרשמי של שיאומי מתאר תכנון מערכתי מלא המשלב שלוש טכניקות מתואמות כדי לדחוף את התפוקה אל מעבר ל-1,000 טוקנים/שנייה .
הרעיון פשוט אך מתוחכם: רק שכבות המומחים (Expert layers) בארכיטקטורת ה-MoE נדחסות לדיוק של 4 ביטים (FP4), בעוד כל שאר השכבות שומרות על הדיוק המקורי שלהן . תהליך ה-Quantization-Aware Training (QAT) מקטין משמעותית את נפח המודל ואת הלחץ על רוחב הפס של הזיכרון, תוך מטרה לשמור על יכולות המודל ברמה כמעט זהה למקור
. גישה סלקטיבית זו מונעת פגיעה ברכיבים הרגישים יותר לאובדן דיוק.
במקום לייצר טוקנים אחד-אחד באופן אוטו-רגרסיבי, DFlash משתמשת בניבוי מקבילי מבוסס בלוקים . מודל הטיוטה (Draft Model) עושה שימוש במנגנון קשב של חלון נע (Sliding Window Attention) כדי לשמור על עלות חיזוי קבועה, מבלי שתהיה תלויה באורך הרצף
. כדי להבטיח שהמודל הגדול יאשר את הטוקנים שניבאו, נעשה שימוש באופטימיזציית Muon ובזיקוק עצמי (Self-Distillation) לשיפור שיעורי הקבלה
. בתרחישי קידוד, דווח על אורך ממוצע של 6.30 טוקנים שמאושרים בכל שלב אימות
.
מערכת TileRT נוטשת את הגישה המסורתית שבה כל פעולה מפעילה גרעין עיבוד (Kernel) נפרד, ובמקום זאת מריצה צינור עיבוד שלם שיושב באופן קבוע על ה-GPU . שליפה מראש (Prefetching) של הפקודות חופפת את תנועת הנתונים עם החישוב, ומוחקת כמעט לחלוטין את זמני ההמתנה של המעבד הגרפי
. בנוסף, המערכת מפרקת ברמת ה-Tile (אריח) את פעולות התקשורת, העברת הנתונים וחישובי הטנזורים בין חטיבות עיבוד שונות (Warps) בעלות תפקידים ייעודיים, מה שהופך למעשה את ה-GPU למערכת ביצוע הטרוגנית שזורמת ברציפות
.
תמחור הקלט משקף את אותה מכפלה של פי 3: קלט שנמצא בזיכרון המטמון (Cache Hit) ב-$0.0108 למיליון טוקנים, וקלט שלא נמצא (Cache Miss) ב-$1.305 למיליון טוקנים . שיאומי משווקת זאת תחת הסלוגן הקליט "פי 3 המחיר, פי 10 חוויית הפלט", תוך שהיא מדגישה את שיפור התפוקה הדרמטי לעומת העלייה המתונה יחסית בעלות
.
חלון הזמן להתנסות מוגבל במפורש: 9 ביוני עד 23 ביוני 2026, בשעה 23:59 . הגישה מבוססת על בקשה ואישור מראש, שכן משאבי ההאצה מוגבלים. תינתן עדיפות לתרחישי שימוש ארגוניים ולמפתחים מקצועיים
.
משתמשים שיאושרו יקבלו גישה חינמית לשימוש בצ'אט במהלך שבועיים אלו, בכפוף לכללי שימוש הוגן: מקסימום 10 כניסות מוצלחות לתור ביום, הגבלת סשן ל-30 דקות, ושחרור אוטומטי של משאבים לאחר 5 דקות של חוסר פעילות . שיאומי לא מתחייבת למהירות הטיפול בבקשות או לשיעור האישורים
.
המודל הבסיסי, המכונה MiMo-V2.5-Pro-FP4-DFlash, שוחרר כקוד פתוח במקביל להכרזה . המשקלים הדחוסים (FP4) ומודל הטיוטה (DFlash) זמינים להורדה בפלטפורמת HuggingFace, בהתאם להצהרות החברה כי אלו הם רכיבי הליבה של השיטה
.
ההישג של MiMo-V2.5-Pro-UltraSpeed מוכיח שהסקה של מודלי ענק במהירות אינטראקטיבית היא בהישג יד גם ללא הסתמכות על שבבים מותאמים כמו TPUs או ASICs יקרים, תוך שימוש בתשתית GPU מוכרת וזמינה .
עבור מפתחים הבונים אפליקציות מבוססות סוכנים (Agents), מערכות RAG מורכבות, או יישומים הדורשים יצירת קוד בזמן אמת, השילוב של מהירות גבוהה וחלון הקשר עצום של מיליון טוקנים מהווה קפיצת מדרגה משמעותית לפרודוקטיביות. היכולת לעבד 1,000 טוקנים בשנייה – שווה ערך לכ-750 מילים בשנייה – הופכת אינטראקציות מורכבות עם מסמכים ארוכים או בסיסי קוד גדולים למיידיות ומעשיות מאי פעם, כל עוד ניתן להשיג גישה במהלך חלון הניסיון המצומצם.
Comments
0 comments