What should I do next in practice?

קוד המודל הבסיסי, MiMo V2.5 Pro FP4 DFlash, שוחרר כקוד פתוח בפלטפורמת HuggingFace, ומאפשר לקהילת המחקר לנתח ולשחזר את הביצועים פורצי הדרך.

← Back to Trending

AnswersPublished19 hours agoLast edited 17 hours ago26 sources

הבשורה של שיאומי: מהירות מחשבה אנושית למודל ענק על GPU תעשייתי

שיאומי ו TileRT חשפו ביוני 2026 את מצב ה UltraSpeed עבור MiMo V2.5 Pro, והפכו למודל טריליון הפרמטרים הראשון ששובר את מהירות ה 1,000 טוקנים לשנייה על שרת GPU תעשייתי בודד (8 כרטיסים). ההישג הושג באמצעות שילוב שלוש טכניקות מתוחכמות: דחיסת FP4 סלקטיבית לשכבות המומחים, פענוח ספקולטיבי מבוסס בלוקים (DFlash), ומנוע ליבה מ...

Search & fact-check with Studio Global AI Browse more Trending pages

29K0

Conceptual visualization of Xiaomi MiMo-V2.5-Pro-UltraSpeed achieving over 1,000 tokens per second on a trillion-parameter model using standard GPUs. — What did Xiaomi announce on June 6, 2026 regarding MiMo-V2.5-Pro-UltraSpeed, including the specific tokens-per-second milestone achieved onA conceptual representation of high-speed AI inference on standard GPU hardware.
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What did Xiaomi announce on June 6, 2026 regarding MiMo-V2.5-Pro-UltraSpeed, including the specific tokens-per-second milestone achieved on. Article summary: On **June 8, 2026** (with major reports appearing on June 9), Xiaomi's MiMo team, in collaboration with TileRT, announced **MiMo-V2.5-Pro-UltraSpeed** — a new high-speed inference mode for its trillion-parameter flagship. Topic tags: general, general web, user generated, documentation. Reference image context from search candidates: Reference image 1: visual subject "# Xiaomi rolls out MiMo V2.5 with multimodal AI and improved efficiency. Xiaomi has introduced its MiMo-V2.5 model family, adding multimodal capabilities and advancing its push int" source context "Xiaomi rolls out MiMo V2.5 with multimodal AI and improved efficiency" Reference image 2: visual subje
openai.com

ב-8 ביוני 2026, צוות MiMo של שיאומי, בשיתוף פעולה עם שותפת ההאצה TileRT, השיק את ה-MiMo-V2.5-Pro-UltraSpeed, מצב הסקה מהיר במיוחד עבור סדרת המודלים MiMo-V2.5-Pro . הכותרות התמקדו בטענה אחת מרכזית: מודל בעל טריליון פרמטרים (1T) המצליח לייצר מעל 1,000 טוקנים בשנייה. שיאומי תיארה זאת כפריצת דרך ראשונה מסוגה בקנה מידה זה, תוך הדגשה שהכל רץ על שרת GPU תעשייתי סטנדרטי בעל 8 כרטיסים (Commodity Node), ולא על חומרה מותאמת אישית .

אבן הדרך: מהירות הקרובה לזמן אמת

החברה דיווחה על תפוקה יציבה של יותר מ-1,000 טוקנים לשנייה, כשהדגמות הראו שיאים של 1,200 טוקנים לשנייה, וזאת על שרת GPU סטנדרטי . ההישג שובר את מה ששיאומי מכנה "המשולש הבלתי אפשרי" בתעשייה: שילוב של מהירות, יכולת ותאימות לחומרת GPU גנרית . מנכ"ל שיאומי, ליי ג'ון, ציין ברשתות החברתיות כי זוהי הפעם הראשונה בתעשייה בה מודל טריליון פרמטרים חוצה את הרף של 1,000 טוקנים/שנייה .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

הבשורה של שיאומי: מהירות מחשבה אנושית למודל ענק על GPU תעשייתי

אבן הדרך: מהירות הקרובה לזמן אמת

Search, cite, and publish your own answer

People also ask

What is the short answer to "הבשורה של שיאומי: מהירות מחשבה אנושית למודל ענק על GPU תעשייתי"?

What are the key points to validate first?

What should I do next in practice?

Sources

Comments

שלוש הטכניקות שמאחורי הקסם

1. קוונטיזציה מעורבת ברמת דיוק FP4

2. פענוח ספקולטיבי DFlash

3. מנוע ליבה מתמיד (TileRT) עם התמחות חטיבות עיבוד

תמחור: "פי 3 במחיר, פי 10 בחוויית הפלט"

גישה מוגבלת: מי יכול להתנסות ומתי?

קוד פתוח: שקיפות מלאה לקהילה

למה זה משנה למפתח הישראלי?