Саме в архітектурних рішеннях Nvidia найбільш радикально відходить від стандартного дизайну великих мовних моделей. Замість звичайного щільного Трансформера, модель використовує гібридну архітектуру Latent Mixture-of-Experts (LatentMoE), яка чергує шари просторово-часових моделей Mamba-2 з шарами Mixture-of-Experts та невеликою кількістю стандартних шарів Уваги (Attention) .
Цей дизайн безпосередньо вирішує дві найбільші проблеми в довготривалих агентних завданнях: споживання пам'яті та швидкість висновку. Просторово-часові моделі, як-от Mamba-2, масштабуються лінійно з довжиною послідовності, а не квадратично, як механізми уваги. Поєднуючи їх із маршрутизацією MoE — де лише частина загальних параметрів активується для кожного токена — Nvidia створює модель, яка зберігає точність найвищого рівня, працюючи при цьому значно швидше за конкурентів порівнянного рівня .
Архітектура також використовує Передбачення кількох токенів (Multi-Token Prediction, MTP) — техніку, за якої модель під час генерації одночасно прогнозує кілька майбутніх токенів. Це працює як форма вбудованого спекулятивного декодування, що додатково збільшує пропускну здатність без потреби в окремій чернетковій моделі .
Контекстне вікно на 1 мільйон токенів — це ще один свідомий вибір. У роботі агентів модель повинна утримувати стан протягом десятків або сотень викликів інструментів, зберігати тривалу історію планування в пам'яті та міркувати над великими кодовими базами чи колекціями документів. Менше контекстне вікно змушує агентів скорочувати або узагальнювати, втрачаючи критичну інформацію. Обмеження в 1 млн токенів дозволяє зберігати повний стан агента, логи та плани під час тривалих сеансів .
В індексі Intelligence Index від Artificial Analysis — складеному бенчмарку, що вимірює здатність моделі за багатьма параметрами — Nemotron 3 Ultra набирає 48 балів, що робить її найкращою моделлю з відкритими вагами серед усіх розробників США . Цей показник ставить її попереду Llama 3.1 405B та Mixtral 8x22B, хоча вона все ще поступається найкращим китайським відкритим моделям за загальною спроможністю
.
Але, можливо, важливішим показником є пропускна здатність. Згідно з технічним звітом Nvidia, Nemotron 3 Ultra досягає приблизно в 6 разів вищої пропускної здатності висновку порівняно з іншими найсучаснішими відкритими великими мовними моделями, зберігаючи при цьому порівнянну точність . У квантованому форматі NVFP4 на платформі Blackwell від Nvidia модель забезпечує в 5 разів швидший висновок і знижує загальну вартість складних агентних завдань до 30 відсотків
.
Конкретні порівняння пропускної здатності з технічного звіту показують, що Nemotron 3 Ultra досягає в 5,9 раза вищої пропускної здатності, ніж GLM-5.1-754B, у 4,8 раза вищої, ніж Kimi-K2.6-1T, та в 1,6 раза вищої, ніж Qwen-3.5-397B, при налаштуваннях вхідних даних на 8 000 токенів та вихідних на 64 000 токенів .
Втім, історія з бенчмарками не є історією абсолютного домінування. На окремих тестах, як-от MMLU, HumanEval та GSM8K, модель перевершує Llama 3.1 405B та Mixtral 8x22B, але дані джерел показують змішані результати проти таких моделей, як GPT-4o, за певними показниками . Сам технічний звіт позиціонує перевагу як лідерство на межі «пропускна здатність висновку — точність», а не як лідерство виключно за чистою точністю
.
Nvidia випустила ваги моделі на Hugging Face у двох форматах: квантована версія NVFP4 (NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4) для максимальної швидкості на обладнанні Blackwell, та повна версія BF16 для середовищ, де потрібна найвища точність . Ваги відкриті за ліцензією OpenMDW від Linux Foundation, і Nvidia зобов'язалася випустити рецепти навчання та набори даних, де це дозволено ліцензіями
.
Однак вимоги до обладнання є значними. Мінімальна конфігурація для розгортання становить 4× GB200, 4× B200, 4× GB300, 4× B300 або 8× H100 графічних процесорів . Для розробників, які хочуть експериментувати локально або на легшій інфраструктурі, доступні GGUF-квантовані версії через Unsloth, де динамічний 1-бітний варіант займає приблизно 189 ГБ дискового простору
.
Хмарне розгортання спрощено завдяки доступності з першого дня на Amazon SageMaker JumpStart, що пропонує розгортання в один клік для підприємств, які вже працюють на інфраструктурі AWS .
Nemotron 3 Ultra — це не ізольований анонс продукту. Це найпомітніша частина значно ширшого стратегічного наступу Nvidia, спрямованого на те, щоб стати інфраструктурним провайдером за замовчуванням для корпоративних ШІ-агентів. Складові цього наступу можна поділити на три категорії.
Анонсована на GTC 2026 у березні, Коаліція Nemotron — це спільна група ШІ-лабораторій та компаній, які створюють передові відкриті моделі на інфраструктурі Nvidia DGX Cloud. До її складу входять Cursor, Mistral AI, Perplexity та десятки інших. На Computex Nvidia додала H Company, NAVER Cloud, Nous Research та Prime Intellect як нових членів .
Мета коаліції — об'єднати досвід, дані та обчислювальні ресурси для розвитку передових відкритих моделей, з особливим акцентом на створення найкращих «агентних harnesses» (засобів керування) для цих моделей та забезпечення всебічної спостережуваності за поведінкою агентів . Партнери по коаліції отримують ранній доступ до нових релізів моделей Nemotron до публічної доступності та пріоритетну інтеграцію з агентною інфраструктурою Nvidia
.
На тій же події GTC Nvidia представила те, що називає Nvidia Agent Toolkit, — стек з відкритим кодом, розроблений, щоб згорнути всю складність розгортання автономних агентів у єдиний, оптимізований для Nvidia конвеєр. Інструментарій включає NemoClaw (посилену версію автономного агентного середовища OpenClaw від Nvidia), OpenShell для безпечного виконання, бібліотеки CUDA-X з попередньо завантаженими навичками агента, такими як оптимізація та пошук, а також саму родину моделей Nemotron .
Архітектура інструментарію є примітною: він агностичний до фреймворків, що означає, що підприємства можуть використовувати його з LangChain, CrewAI, AutoGen або власним рівнем оркестрування. Ставка робиться на те, що, роблячи стек справді корисним і відкритим, Nvidia гарантує, що коли підприємства розгортатимуть парки агентів у великому масштабі, вони за замовчуванням використовуватимуть графічні процесори Nvidia .
Понад 150 засновників-партнерів взяли на себе зобов'язання створювати ШІ-агентів на інфраструктурі Nvidia, включаючи такі великі програмні платформи, як CrowdStrike, Palantir, Adobe, Salesforce, SAP, ServiceNow та Siemens . У березні 2026 року компанія LangChain — чиї фреймворки перетнули позначку в 1 мільярд завантажень — анонсувала комплексну корпоративну агентну ШІ-платформу, побудовану безпосередньо на моделях Nemotron від Nvidia та Agent Toolkit, а сама LangChain приєдналася до Коаліції Nemotron
.
Глибина цих інтеграцій має значення. Платформа агентного інжинірингу LangSmith від LangChain у поєднанні з інфраструктурою Nvidia створює наскрізний конвеєр, що охоплює розробку, розгортання, моніторинг та аудит. Для підприємств, які вже використовують одного з постачальників, це партнерство зменшує тертя при створенні виробничих агентних систем .
Nvidia прямо позиціонує Nemotron 3 Ultra як найрозумнішу модель США з відкритими вагами, і це формулювання має значення. Останніми місяцями на передовій відкритих моделей домінували китайські моделі від DeepSeek, Qwen та інших. Nemotron 3 Ultra — це відповідь Nvidia, не обов'язково шляхом перемоги над китайськими моделями за чистими показниками бенчмарків, а шляхом оптимізації для конкретного робочого навантаження (довготривалі агенти) та конкретного обладнання (графічні процесори Blackwell з NVFP4), яке фактично використовуватимуть корпоративні клієнти .
Модель підтримує контроль бюджету обчислень під час висновку, що означає, що користувачі можуть обирати між швидкістю та глибиною міркування залежно від завдання . Ця можливість конфігурації є важливою для агентних систем, де різні підзавдання потребують різного рівня когнітивних зусиль — етап планування може вимагати глибокого міркування, тоді як етап виклику інструменту потребує швидкості.
Підтримка мов охоплює англійську, французьку, іспанську, італійську, німецьку, японську, корейську, португальську та китайську, що робить модель придатною для розгортання в багатонаціональних підприємствах .
Nemotron 3 Ultra — це передусім не про встановлення рекордів у бенчмарках. Це про встановлення інфраструктури за замовчуванням для корпоративних ШІ-агентів. Відкриваючи модель передового масштабу, яка найшвидше працює на власному обладнанні Nvidia, створюючи інструментарій агента з відкритим кодом, який спрощує розгортання, та збираючи коаліцію ШІ-лабораторій і корпоративних програмних вендорів, відданих цьому стеку, Nvidia робить ту саму ставку, що й з CUDA: що володіння досвідом розробника зрештою означає володіння ринком.
Модель пропонує значні технічні досягнення — зокрема у пропускній здатності та довжині контексту — які роблять її справді придатною для агентних навантажень, які підприємства починають розгортати. Але стратегія не меншою мірою полягає у прив'язці інфраструктури висновку до цих навантажень. Для підприємств, які оцінюють агентні платформи в середині 2026 року, стек Nvidia наразі є найбільш повним доступним варіантом з відкритим кодом.
Comments
0 comments