המורכבות של DeepSeek-V3 אינה מסתכמת רק בגודל. היא נובעת גם מתבניות התקשורת "המתפרצות" (bursty) של מודלי MoE, שדורשות רוחב פס עצום בין המעבדים כדי לנתב מידע למומחים הנכונים . NVIDIA הייתה הפלטפורמה היחידה בעולם שהצליחה להגיש תוצאות רשמיות בשתי אמות המידה החדשות הללו, תוך שימוש במערכת ה-NVL72 שלה ובשיפורי תוכנה ייעודיים
.
חברת CoreWeave, שמספקת תשתית ענן ל-AI, הגישה בסבב הזה את התוצאה המהירה בעולם לאימון DeepSeek-V3: 2.02 דקות. כדי להשיג זאת, החברה השתמשה באשכול מפלצתי של 8,192 מעבדי NVIDIA GB300 NVL72 על גבי 2,048 צמתים – אשכול ה-GB300 הגדול ביותר בסבב – שרץ על תשתית הענן המסחרית הרגילה שלה, לא בחוות שרתים מיוחדת ומבודדת .
הזמן הזה ממחיש אופטימיזציה מערכתית מלאה מקצה לקצה, מרובד הרשת, דרך תיאום התשתית, ועד לשכבת האחסון. אימון שמבחינה מסורתית היה אורך ימים או שעות הפך למשימה של דקות ספורות .
הסבב הזה סימל גם את חשיפת הביצועים של שבב ה-Blackwell Ultra, ה-GB300. בהשוואה לקודמו, ה-GB200, הקפיצה דרמטית:
| מדד | שיפור יחסי |
|---|---|
| אימון DeepSeek-V3 (תוכנה זהה) | עד פי 1.6 מהיר יותר |
| אימון כללי (אותה סקאלה) | עד פי 1.6 מהיר יותר |
| היסק DeepSeek-R1 | עד פי 2.77 מהיר יותר באסימונים לשנייה |
השיפור נובע מתקציבי זיכרון והספק גדולים יותר, שמאפשרים "לוקליות" (locality) גבוהה יותר של המודל, כלומר, יותר מהמשקולות של המודל יכולות לשבת קרוב לליבת העיבוד .
הסבב לא היה חגיגה של NVIDIA בלבד. השתתפו בו 24 ארגונים שונים, שהגישו תוצאות על לא פחות מ-95 מערכות שונות, תוך שימוש ב-13 סוגי מאיצי חומרה . מספרים אלה מעידים על התבגרות השוק ועל כניסה של שחקניות נוספות.
AMD בלטה במיוחד עם שבב ה-Instinct MI355X, שהשתמש בפורמט דיוק חדש משלו, MXFP4. ביצועיו היו תחרותיים ביחס ל-NVIDIA B200 בכמה משימות חשובות: הוא הגיע לפער של 5% בלבד מכוונון עדין של Llama 2-70B, ולפער של 6% בלבד באימון מקדים של Llama 3.1-8B . גיוון נוסף ניכר גם בשימוש הגובר בדיוק FP4 על ידי ספקים שונים, מה שמאפשר אימון מהיר ויעיל יותר
.
ההישג של NVIDIA לא היה מוגבל רק למודלי השפה המתוחכמים. הפלטפורמה זינקה קדימה בכל הקטגוריות. להלן זמני האימון שהשיגה הפלטפורמה בכמה מהן :
השילוב בין מתגי NVLink-Switch בתוך השרת לבין רשת ה-Ethernet החיצונית (Spectrum-X) עם ניתוב אדפטיבי ובקרת עומסים, הוא שאיפשר לשמור על ניצול כמעט תיאורטי של רוחב הפס גם בדפוסי התקשורת ההפכפכים של ארכיטקטורת ה-MoE .
סבב MLPerf Training v6.0 היה הפגנת כוח מרשימה של NVIDIA, שהציגה לא רק ניצחון מוחץ בכל החזיתות, אלא גם הוכחה ליכולתה להתמודד עם אתגרי הדור הבא של אימון הבינה המלאכותית, כפי שמגלם מודל DeepSeek-V3. עם זאת, כניסתן של AMD וחברות נוספות עם חומרה ותוכנה מגוונים יותר, מסמנת שהקרב על עתיד אימון ה-AI רק מתחיל להתחמם.
Comments
0 comments