Именно в архитектурных решениях Nvidia наиболее радикально отходит от стандартного дизайна больших языковых моделей. Вместо обычного плотного трансформера модель использует гибридную архитектуру Latent MoE (LatentMixture-of-Experts), которая чередует слои Mamba-2 (модель пространства состояний) со слоями Mixture-of-Experts и небольшим количеством стандартных слоев внимания .
Такая конструкция напрямую решает две главные проблемы в длительных задачах агентов: потребление памяти и скорость инференса. Модели пространства состояний, такие как Mamba-2, масштабируются линейно с длиной последовательности, а не квадратично, как механизмы внимания. Комбинируя их с MoE-маршрутизацией, при которой для каждого токена активируется лишь часть параметров, Nvidia достигает точности фронтирного уровня, работая при этом значительно быстрее конкурентов сопоставимого интеллекта .
Архитектура также включает предсказание нескольких токенов (MTP) — технику, при которой модель одновременно генерирует несколько будущих токенов. Это служит формой встроенного спекулятивного декодирования, дополнительно увеличивая пропускную способность без необходимости в отдельной черновой модели .
Окно контекста в 1 миллион токенов — еще один осознанный выбор. В агентных сценариях модели приходится удерживать состояние на протяжении десятков или сотен вызовов инструментов, хранить в памяти длинные истории планирования и анализировать объемные базы кода или коллекции документов. Меньший контекст вынуждает агентов обрезать или суммировать информацию, теряя критически важные данные. Лимит в 1 млн токенов позволяет сохранять полное состояние агента, логи и планы на протяжении длительных сессий .
В композитном индексе Artificial Analysis Intelligence Index, измеряющем способности модели по множеству параметров, Nemotron 3 Ultra набирает 48 баллов, что делает ее самой высокоранговой открытой моделью среди всех разработчиков из США . Этот результат ставит ее выше Llama 3.1 405B и Mixtral 8x22B, хотя в общем зачете она пока уступает ведущим китайским открытым моделям
.
Но, пожалуй, более значимый показатель — это пропускная способность. Согласно техническому отчету Nvidia, Nemotron 3 Ultra достигает примерно 6-кратного увеличения пропускной способности инференса по сравнению с другими современными открытыми языковыми моделями, сохраняя при этом сопоставимую точность . В квантованном формате NVFP4 на платформе Nvidia Blackwell модель показывает 5-кратное ускорение инференса и снижает общую стоимость сложных агентных задач до 30 процентов
.
Конкретные сравнения пропускной способности из технического отчета показывают, что Nemotron 3 Ultra достигает в 5,9 раза большей пропускной способности, чем GLM-5.1-754B, в 4,8 раза — чем Kimi-K2.6-1T, и в 1,6 раза — чем Qwen-3.5-397B, и всё это при обработке 8 000 входных и 64 000 выходных токенов .
Ситуация с бенчмарками неоднозначна. На отдельных тестах, таких как MMLU, HumanEval и GSM8K, модель превосходит Llama 3.1 405B и Mixtral 8x22B, но данные источников показывают смешанные результаты против моделей вроде GPT-4o по отдельным метрикам . Сам технический отчет позиционирует преимущество модели не в абсолютном лидерстве по точности, а в нахождении на «фронтире пропускной способности инференса к точности»
.
Nvidia опубликовала веса модели на Hugging Face в двух форматах: квантованная NVFP4-версия (NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4) для максимальной скорости на оборудовании Blackwell и полная BF16-версия для сред, где требуется наивысшая точность . Веса открыты под лицензией OpenMDW Linux Foundation, и Nvidia обязалась опубликовать рецепты обучения и наборы данных там, где это разрешено лицензиями
.
Однако аппаратные требования весьма высоки. Минимальная конфигурация для развертывания — 4× GB200, 4× B200, 4× GB300, 4× B300 или 8× H100 графических процессоров . Для разработчиков, желающих экспериментировать локально или на более легкой инфраструктуре, через Unsloth доступны квантованные GGUF-версии, причем динамический 1-битный вариант занимает около 189 ГБ дискового пространства
.
Облачное развертывание упрощено благодаря доступности с первого дня на Amazon SageMaker JumpStart, который предлагает развертывание в один клик для предприятий, уже работающих в инфраструктуре AWS .
Nemotron 3 Ultra — это не изолированный анонс продукта. Это самая заметная часть гораздо более масштабного стратегического рывка Nvidia, направленного на то, чтобы стать инфраструктурным провайдером по умолчанию для корпоративных ИИ-агентов. Компоненты этого рывка можно разделить на три категории.
Анонсированная на GTC 2026 в марте, Коалиция Nemotron — это совместная группа ИИ-лабораторий и компаний, создающих передовые открытые модели на инфраструктуре Nvidia DGX Cloud. Среди участников — Cursor, Mistral AI, Perplexity и десятки других. На Computex Nvidia объявила о вступлении в коалицию H Company, NAVER Cloud, Nous Research и Prime Intellect .
Цель коалиции — объединить экспертизу, данные и вычисления для развития открытых передовых моделей, с особым акцентом на создание лучших «обвязок» для агентов и обеспечение всесторонней наблюдаемости за их поведением . Партнеры по коалиции получают ранний доступ к новым релизам моделей Nemotron до их публичной доступности и приоритетную интеграцию с агентной инфраструктурой Nvidia
.
На том же мероприятии GTC Nvidia представила то, что назвала Nvidia Agent Toolkit, — опенсорсный стек, призванный снизить сложность развертывания автономных агентов до единого, оптимизированного под Nvidia конвейера. Инструментарий включает NemoClaw (усиленную Nvidia версию среды выполнения автономных агентов OpenClaw), OpenShell для безопасного исполнения, библиотеки CUDA-X с предустановленными навыками агентов (такими как оптимизация и поиск), а также само семейство моделей Nemotron .
Архитектура инструментария примечательна: он агностичен к фреймворкам, а это значит, что предприятия могут использовать его с LangChain, CrewAI, AutoGen или собственным оркестровочным слоем. Ставка сделана на то, что, делая стек по-настоящему полезным и открытым, Nvidia гарантирует, что по мере массового развертывания агентов предприятия по умолчанию будут выбирать графические процессоры Nvidia .
Более 150 партнеров-основателей обязались строить ИИ-агентов на инфраструктуре Nvidia, включая такие крупные софтверные платформы, как CrowdStrike, Palantir, Adobe, Salesforce, SAP, ServiceNow и Siemens . В марте 2026 года компания LangChain — чьи фреймворки преодолели отметку в 1 миллиард загрузок — анонсировала комплексную корпоративную платформу для агентного ИИ, построенную непосредственно на моделях Nemotron и Agent Toolkit от Nvidia, при этом сама LangChain вошла в Коалицию Nemotron
.
Глубина этих интеграций имеет значение. Платформа инженерии агентов LangSmith от LangChain в сочетании с инфраструктурой Nvidia создает сквозной конвейер, охватывающий разработку, развертывание, мониторинг и аудит. Для предприятий, уже инвестировавших в одного из вендоров, это партнерство снижает барьеры для создания промышленных агентных систем .
Nvidia явно позиционирует Nemotron 3 Ultra как самую интеллектуальную открытую модель в США, и этот контекст важен. В последние месяцы на фронтире открытых моделей доминировали китайские разработки от DeepSeek, Qwen и других. Nemotron 3 Ultra — это ответ Nvidia, но не обязательно путем превосходства в сырых баллах бенчмарков, а скорее за счет оптимизации под конкретную рабочую нагрузку (длительные агентные задачи) и конкретное оборудование (GPU Blackwell с NVFP4), которое корпоративные клиенты и будут использовать .
Модель поддерживает управление бюджетом рассуждений во время инференса, то есть пользователи могут выбирать между скоростью и глубиной обдумывания в зависимости от задачи . Эта гибкость критически важна для агентных систем, где разные подзадачи требуют разного уровня когнитивных усилий: этап планирования может требовать глубоких рассуждений, тогда как этап вызова инструментов — скорости.
Поддержка языков включает английский, французский, испанский, итальянский, немецкий, японский, корейский, португальский и китайский, что делает модель жизнеспособной для международных корпоративных развертываний .
Nemotron 3 Ultra — это не столько о рекордах в бенчмарках, сколько о создании инфраструктуры по умолчанию для корпоративных ИИ-агентов. Открывая модель фронтирного масштаба, которая быстрее всего работает на собственном оборудовании Nvidia, создавая открытый агентный инструментарий, упрощающий развертывание, и собирая коалицию ИИ-лабораторий и поставщиков корпоративного ПО, приверженных этому стеку, — Nvidia делает ту же ставку, что и с CUDA: контроль над пользовательским опытом разработчика со временем приводит к контролю над рынком.
Модель обеспечивает значимые технические улучшения — особенно в пропускной способности и длине контекста, что делает ее действительно подходящей для агентных рабочих нагрузок, которые предприятия начинают развертывать. Но стратегия в равной степени направлена на закрепление инфраструктуры инференса за этими рабочими нагрузками. Для предприятий, оценивающих агентные платформы в середине 2026 года, стек Nvidia на данный момент является самым комплексным из доступных вариантов с открытым исходным кодом.
Comments
0 comments