הבחירות הארכיטקטוניות שמאחורי Nemotron 3 Ultra הן המקום שבו Nvidia סוטה באופן החד ביותר מהעיצוב הסטנדרטי של מודלי שפה גדולים. במקום רשת טרנספורמר צפופה קונבנציונלית, המודל משתמש בארכיטקטורת Latent Mixture-of-Experts (LatentMoE) היברידית המשלבת שכבות של מודל מצב-מרחב Mamba-2 עם שכבות Mixture-of-Experts ומספר קטן של שכבות Attention סטנדרטיות .
עיצוב זה נותן מענה ישיר לשני צווארי הבקבוק הגדולים ביותר במשימות סוכנים ארוכות: צריכת זיכרון ומהירות הסקה. מודלי מצב-מרחב כמו Mamba-2 גדלים באופן ליניארי עם אורך הרצף, בניגוד לגידול הריבועי של מנגנוני Attention. שילוב שלהם עם ניתוב MoE – שבו רק חלקיק מהפרמטרים הכוללים מופעל לכל טוקן – מאפשר ל-Nvidia להשיג מודל ששומר על דיוק ברמה הגבוהה ביותר, תוך שהוא רץ במהירות גבוהה משמעותית ממתחרים בעלי אינטליגנציה דומה .
הארכיטקטורה משלבת גם חיזוי רב-טוקני (Multi-Token Prediction, MTP), טכניקה שבה המודל חוזה מספר טוקנים עתידיים בו-זמנית במהלך היצירה. זה פועל כמעין פענוח ספקולטיבי מובנה, המגדיל עוד יותר את התפוקה ללא צורך במודל טיוטה נפרד .
חלון ההקשר של מיליון טוקנים הוא בחירה מכוונת נוספת. בתהליכי עבודה של סוכנים, המודל חייב לשמור מצב לאורך עשרות או מאות קריאות לכלים, לשמור היסטוריות תכנון ארוכות בזיכרון, ולחשוב על בסיסי קוד או אוספי מסמכים גדולים. חלון הקשר קטן יותר מאלץ סוכנים לקצר או לסכם, תוך איבוד מידע קריטי. מגבלת מיליון הטוקנים מאפשרת למצב הסוכן המלא, ללוגים ולתוכניות להישמר לאורך סשנים ממושכים .
במדד המודיעין של Artificial Analysis – מדד מורכב שמעריך את יכולות המודל במספר מימדים – Nemotron 3 Ultra משיג ציון של 48, מה שהופך אותו למודל המשקולות הפתוחות המדורג הגבוה ביותר מכל מפתח אמריקאי . הציון מציב אותו לפני Llama 3.1 405B ו-Mixtral 8x22B, אם כי הוא עדיין מאחורי המודלים הפתוחים המובילים מסין ביכולת הכללית
.
אך המספר המשמעותי יותר עשוי להיות התפוקה. על פי הדו"ח הטכני של Nvidia, Nemotron 3 Ultra משיג עד לפי 6 תפוקת הסקה גבוהה יותר בהשוואה למודלי שפה פתוחים מובילים אחרים, תוך שמירה על דיוק דומה . בפורמט המקוונטט NVFP4, על פלטפורמת Blackwell של Nvidia, המודל רץ פי 5 מהר יותר ומפחית את העלות הכוללת של משימות סוכנים מורכבות בעד 30 אחוז
.
השוואות תפוקה ספציפיות מהדוח הטכני מראות ש-Nemotron 3 Ultra משיג תפוקה גבוהה פי 5.9 מ-GLM-5.1-754B, פי 4.8 מ-Kimi-K2.6-1T, ופי 1.6 מ-Qwen-3.5-397B, כולם במשימה עם קלט של 8,000 טוקנים ופלט של 64,000 טוקנים .
עם זאת, סיפור הביצועים אינו חד-צדדי. במדדים בודדים כמו MMLU, HumanEval ו-GSM8K, המודל מתעלה על Llama 3.1 405B ו-Mixtral 8x22B, אך נתוני המקור מראים תוצאות מעורבות מול מודלים כמו GPT-4o במדדים מסוימים . הדו"ח הטכני עצמו ממסגר את היתרון במונחי עקומת תפוקת-ההסקה-מול-דיוק, ולא במנהיגות בדיוק גולמי בלבד
.
Nvidia שחררה את משקולות המודל ב-Hugging Face בשני פורמטים: גרסה מקוונטטת NVFP4 (NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4) למהירות מרבית על חומרת Blackwell, וגרסת BF16 מלאה לסביבות הדורשות דיוק מקסימלי . המשקולות פתוחות תחת רישיון OpenMDW של קרן לינוקס, ו-Nvidia התחייבה לפרסם מתכוני אימון וערכות נתונים, במקומות שבהם הדבר מורשה
.
עם זאת, דרישות החומרה תלולות. התצורה המינימלית לפריסה היא 4× GB200, 4× B200, 4× GB300, 4× B300, או 8× H100 . למפתחים שרוצים להתנסות באופן מקומי או על תשתית קלה יותר, גרסאות מקוונטטות GGUF זמינות דרך Unsloth, כאשר האפשרות הדינמית של 1-bit תופסת כ-189GB של שטח דיסק
.
פריסה בענן מפושטת בזכות זמינות מיום ההשקה ב-Amazon SageMaker JumpStart, המציע פריסה בלחיצת כפתור לארגונים שכבר פועלים על תשתית AWS .
Nemotron 3 Ultra אינו הכרזת מוצר מבודדת. הוא החלק הבולט ביותר במהלך אסטרטגי רחב הרבה יותר של Nvidia להפוך לספקית התשתיות המובילה לסוכני AI ארגוניים. הרכיבים של מהלך זה מתחלקים לשלוש קטגוריות.
קואליציית Nemotron, שהוכרזה בכנס GTC 2026 במרץ, היא קבוצה שיתופית של מעבדות AI וחברות הבונות מודלי קצה פתוחים על תשתית DGX Cloud של Nvidia. החברים כוללים את Cursor, Mistral AI, Perplexity ועשרות אחרים. ב-Computex, Nvidia צירפה את H Company, NAVER Cloud, Nous Research ו-Prime Intellect כחברים חדשים .
מטרת הקואליציה היא לאחד מומחיות, מידע ומשאבי מחשוב כדי לקדם מודלי קצה פתוחים, עם דגש ספציפי על בניית מערכת הרתמה הטובה ביותר עבור סוכנים, ומתן יכולת תצפית מקיפה על התנהגות הסוכנים . שותפי הקואליציה מקבלים גישה מוקדמת לגרסאות חדשות של מודלי Nemotron לפני זמינותם לציבור, ושילוב מועדף עם תשתית הסוכנים של Nvidia
.
באותו כנס GTC, חשפה Nvidia את מה שהיא מכנה Nvidia Agent Toolkit, מחסנית קוד פתוח שנועדה לצמצם את המורכבות של פריסת סוכנים אוטונומיים לצינור עיבוד יחיד המותאם ל-Nvidia. הערכה כוללת את NemoClaw (הגרסה המוקשחת של Nvidia לזמן הריצה OpenClaw לסוכנים אוטונומיים), OpenShell להרצה מאובטחת, ספריות CUDA-X הטעונות מראש ביכולות סוכנים כמו אופטימיזציה ושליפה, ואת משפחת המודלים Nemotron עצמה .
הארכיטקטורה של הערכה ראויה לציון: היא אינה תלויה במסגרת עבודה ספציפית (framework-agnostic), כלומר ארגונים יכולים להשתמש בה עם LangChain, CrewAI, AutoGen, או שכבת התזמור שלהם עצמם. ההימור הוא שבאמצעות הפיכת המחסנית לשימושית באמת ובקוד פתוח, Nvidia מבטיחה שכאשר ארגונים יפרוסו ציי סוכנים בקנה מידה גדול, ברירת המחדל תהיה שימוש במעבדי ה-GPU של Nvidia מתחת למכסה המנוע .
יותר מ-150 שותפים מייסדים התחייבו לבנות סוכני AI על התשתית של Nvidia, כולל פלטפורמות תוכנה מרכזיות כמו CrowdStrike, Palantir, Adobe, Salesforce, SAP, ServiceNow ו-Siemens . במרץ 2026, LangChain – שמסגרות העבודה שלה חצו את רף מיליארד ההורדות – הכריזה על פלטפורמת AI ארגונית מקיפה לסוכנים הבנויה ישירות על מודלי ה-Nemotron וערכת הכלים של Nvidia, כאשר LangChain עצמה הצטרפה לקואליציית Nemotron
.
עומק השילובים האלה משמעותי. הפלטפורמה ההנדסית לסוכנים LangSmith של LangChain, בשילוב עם התשתית של Nvidia, יוצרות צינור עבודה מקצה לקצה המשתרע על פיתוח, פריסה, ניטור וביקורת. עבור ארגונים שכבר מחויבים לאחד מהספקים, שותפות זו מפחיתה את החיכוך בבניית מערכות סוכנים יצרניות .
Nvidia ממקמת במפורש את Nemotron 3 Ultra כמודל המשקולות הפתוחות האינטליגנטי ביותר מארה"ב, והמסגור הזה חשוב. חזית המשקולות הפתוחות נשלטה בחודשים האחרונים על ידי מודלים סיניים מ-DeepSeek, Qwen ואחרים. Nemotron 3 Ultra הוא התשובה של Nvidia – לאו דווקא על ידי ניצחון על מודלים סיניים בציוני מדדים גולמיים, אלא על ידי אופטימיזציה לעומס העבודה הספציפי (סוכנים ארוכי-טווח) והחומרה הספציפית (מעבדי Blackwell עם NVFP4) שלקוחות ארגוניים באמת ישתמשו בהם .
המודל תומך בבקרת תקציב חשיבה בזמן הסקה (inference-time reasoning budget control), כלומר משתמשים יכולים להתפשר בין מהירות לעומק חשיבה בהתאם למשימה . יכולת ההגדרה הזו חשובה למערכות סוכנים שבהן תת-משימות שונות דורשות רמות שונות של מאמץ קוגניטיבי – שלב תכנון עשוי לדרוש חשיבה מעמיקה, בעוד ששלב קריאת כלים דורש מהירות.
תמיכת השפה כוללת אנגלית, צרפתית, ספרדית, איטלקית, גרמנית, יפנית, קוריאנית, פורטוגזית וסינית, מה שהופך אותו למתאים לפריסות ארגוניות רב-לאומיות .
Nemotron 3 Ultra אינו עוסק בעיקר בקביעת שיאי מדדים. הוא עוסק בביסוס תשתית ברירת המחדל עבור סוכני AI ארגוניים. על ידי הפיכת מודל בקנה מידה חזיתי לקוד פתוח שרץ הכי מהר על החומרה של Nvidia עצמה, בניית ערכת כלים לסוכנים בקוד פתוח שמפשטת את הפריסה, והרכבת קואליציה של מעבדות AI וספקי תוכנה ארגוניים המחויבים למחסנית זו, Nvidia עושה את אותו הימור שעשתה עם CUDA: ששליטה בחוויית המפתח שווה, בסופו של דבר, לשליטה בשוק.
המודל מספק התקדמויות טכניות משמעותיות – במיוחד בתפוקה ובאורך ההקשר – שהופכות אותו למתאים באמת לעומסי העבודה של סוכנים שארגונים מתחילים לפרוס. אך האסטרטגיה היא באותה מידה על נעילת תשתית ההסקה עבור עומסי העבודה הללו. עבור ארגונים שמעריכים פלטפורמות סוכנים באמצע 2026, מחסנית Nvidia היא כעת האופציה בקוד פתוח השלמה ביותר הזמינה.
Comments
0 comments