Architektonická rozhodnutí, na nichž je Nemotron 3 Ultra postaven, jsou místem, kde se Nvidia nejostřeji vymezuje vůči standardnímu návrhu velkých jazykových modelů. Namísto tradičního hustého Transformeru model využívá hybridní architekturu Latent Mixture-of-Experts (LatentMoE), která prokládá vrstvy stavově-prostorového modelu Mamba-2 s expertními vrstvami a malým počtem standardních Attention vrstev .
Tento návrh přímo řeší dvě největší překážky u dlouhotrvajících agentových úloh: spotřebu paměti a rychlost odvozování. Stavově-prostorové modely jako Mamba-2 škálují lineárně s délkou sekvence, nikoli kvadraticky, jak je tomu u mechanismů pozornosti. Jejich kombinací s MoE směrováním – kde je pro každý token aktivována jen zlomek celkových parametrů – dosahuje Nvidia modelu, který si udržuje přesnost na špičkové úrovni a zároveň běží podstatně rychleji než srovnatelně inteligentní konkurence .
Architektura rovněž obsahuje Multi-Token Prediction (MTP), tedy techniku, kdy model během generování textu simultánně předpovídá několik budoucích tokenů. To slouží jako forma nativní spekulativní dekódování, která dále zvyšuje propustnost bez nutnosti použít samostatný návrhový model .
Kontextové okno o velikosti 1 milion tokenů je dalším záměrným tahem. Při agentových pracovních postupech si model musí udržovat stav napříč desítkami či stovkami volání nástrojů, udržovat v paměti dlouhou historii plánování a usuzovat nad velkými kódovými bázemi či sbírkami dokumentů. Menší kontextové okno nutí agenty k ořezávání či sumarizaci, čímž se ztrácí kritické informace. Limit 1 milion tokenů umožňuje, aby plný stav agenta, protokoly a plány přetrvávaly po celou dobu sezení .
V indexu Artificial Analysis Intelligence – což je složený benchmark, který měří schopnosti modelu v několika dimenzích – dosahuje Nemotron 3 Ultra skóre 48, čímž se stává nejvýše hodnoceným otevřeným modelem od jakéhokoli amerického vývojáře . Tímto skóre předčí Llama 3.1 405B a Mixtral 8x22B, byť v celkové schopnosti stále zaostává za špičkovými čínskými otevřenými modely
.
Podstatnějším číslem je však propustnost. Podle technické zprávy Nvidie dosahuje Nemotron 3 Ultra až přibližně 6násobně vyšší propustnosti při odvozování ve srovnání s ostatními špičkovými otevřenými velkými jazykovými modely, při zachování srovnatelné přesnosti . Na kvantovaném formátu NVFP4 běžícím na platformě Nvidia Blackwell dosahuje model 5× rychlejší inference a snižuje celkové náklady na složité agentové úlohy až o 30 procent
.
Konkrétní srovnání propustnosti z technické zprávy ukazují, že Nemotron 3 Ultra je 5,9× rychlejší než GLM-5.1-754B, 4,8× rychlejší než Kimi-K2.6-1T a 1,6× rychlejší než Qwen-3.5-397B – to vše při nastavení 8 000 tokenů na vstupu a 64 000 tokenů na výstupu .
Benchmarkový příběh ale není jen o dominanci. V jednotlivých testech, jako jsou MMLU, HumanEval a GSM8K, sice model překonává Llama 3.1 405B a Mixtral 8x22B, avšak zdrojová data ukazují na smíšené výsledky vůči modelům typu GPT-4o v určitých metrikách . Samotná technická zpráva výhodu prezentuje spíše jako hranici poměru propustnost–přesnost, nikoli jen jako vedení v hrubé přesnosti
.
Nvidia zveřejnila váhy modelu na Hugging Face ve dvou formátech: kvantovaná verze NVFP4 (NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4) pro maximální rychlost na hardwaru Blackwell a plná verze BF16 pro prostředí vyžadující nejvyšší přesnost . Váhy jsou otevřené pod licencí OpenMDW od Linux Foundation a Nvidia se zavázala zveřejnit trénovací postupy a datové sady tam, kde je to licenčně možné
.
Hardwarové požadavky jsou ale značné. Minimální konfigurace pro nasazení činí 4× GB200, 4× B200, 4× GB300, 4× B300 nebo 8× H100 GPU . Pro vývojáře, kteří chtějí experimentovat lokálně nebo na lehčí infrastruktuře, jsou dostupné kvantované GGUF verze skrze službu Unsloth, přičemž dynamická 1bitová varianta zabírá přibližně 189 GB místa na disku
.
Cloudové nasazení je zjednodušeno díky dostupnosti od prvního dne na Amazon SageMaker JumpStart, která nabízí nasazení na jedno kliknutí pro firmy již operující na infrastruktuře AWS .
Nemotron 3 Ultra není izolovaným produktovým oznámením. Je nejviditelnější součástí mnohem rozsáhlejší strategické ofenzívy Nvidie stát se výchozím poskytovatelem infrastruktury pro firemní AI agenty. Jednotlivé složky této ofenzívy spadají do tří kategorií.
Koalice Nemotron, oznámená na konferenci GTC 2026 v březnu, je spolupracující skupina AI laboratoří a společností budujících pokročilé otevřené modely na cloudové infrastruktuře Nvidia DGX. Mezi členy patří Cursor, Mistral AI, Perplexity a desítky dalších. Na Computexu Nvidia přivítala jako nové členy společnosti H Company, NAVER Cloud, Nous Research a Prime Intellect .
Účelem koalice je sdružovat odborné znalosti, data a výpočetní kapacitu k pokroku v otevřených modelech, se zvláštním důrazem na budování nejlepších agentových postrojů pro tyto modely a poskytování komplexní pozorovatelnosti chování agentů . Členové koalice získávají včasný přístup k novým verzím modelu Nemotron ještě před veřejnou dostupností a preferovanou integraci s agentovou infrastrukturou Nvidie
.
Na téže konferenci GTC představila Nvidia to, co nazývá Nvidia Agent Toolkit, open-source stack navržený tak, aby komplexitu nasazování autonomních agentů sbalil do jediné, Nvidií optimalizované pipeline. Sada zahrnuje NemoClaw (hardened verzi běhového prostředí OpenClaw pro autonomní agenty od Nvidie), OpenShell pro bezpečné vykonávání, knihovny CUDA-X předem vybavené dovednostmi agentů, jako je optimalizace a vyhledávání, a samotnou rodinu modelů Nemotron .
Architektura této sady je pozoruhodná: je agnostická vůči frameworkům, což znamená, že ji firmy mohou používat s LangChain, CrewAI, AutoGen nebo vlastní orchestrační vrstvou. Sázka spočívá v tom, že pokud bude stack skutečně užitečný a open-source, Nvidia zajistí, že s rozmachem firemního nasazování flotil agentů ve velkém měřítku bude základem právě hardware s GPU od Nvidie .
Více než 150 zakládajících partnerů se zavázalo budovat AI agenty na infrastruktuře Nvidie, včetně velkých softwarových platforem jako CrowdStrike, Palantir, Adobe, Salesforce, SAP, ServiceNow a Siemens . V březnu 2026 společnost LangChain – jejíž frameworky přesáhly 1 miliardu stažení – oznámila komplexní podnikovou platformu pro agentovou AI postavenou přímo na modelech Nemotron a Agent Toolkit od Nvidie, přičemž samotný LangChain se připojil ke Koalici Nemotron
.
Hloubka těchto integrací je zásadní. Platforma pro inženýrství agentů LangSmith od LangChain v kombinaci s infrastrukturou Nvidie vytváří ucelenou pipeline pokrývající vývoj, nasazení, monitorování a audit. Pro firmy, které se již zavázaly kterémukoli z těchto dodavatelů, toto partnerství snižuje třecí plochy při budování produkčních agentových systémů .
Nvidia explicitně staví Nemotron 3 Ultra jako nejinteligentnější americký otevřený model a toto zarámování má svou váhu. Hranici otevřených modelů v posledních měsících ovládly čínské modely od DeepSeek, Qwen a dalších. Nemotron 3 Ultra je odpovědí Nvidie – nikoli nutně tím, že poráží čínské modely v hrubých benchmarkových skórech, ale tím, že je optimalizován pro specifickou zátěž (dlouho běžící agenty) a specifický hardware (GPU Blackwell s NVFP4), který firemní zákazníci skutečně použijí .
Model podporuje řízení rozpočtu na usuzování během inference, což znamená, že uživatelé mohou v závislosti na úloze volit mezi rychlostí a hloubkou úvahy . Tato konfigurovatelnost je důležitá pro agentové systémy, kde různé dílčí úkoly vyžadují různou úroveň kognitivního úsilí – krok plánování může potřebovat hluboké uvažování, zatímco volání nástroje vyžaduje rychlost.
Jazyková podpora zahrnuje angličtinu, francouzštinu, španělštinu, italštinu, němčinu, japonštinu, korejštinu, portugalštinu a čínštinu, což model činí životaschopným pro nadnárodní firemní nasazení .
U modelu Nemotron 3 Ultra nejde primárně o vytváření rekordů v benchmarcích. Jde o etablování výchozí infrastruktury pro firemní AI agenty. Tím, že Nvidia open-sourcuje model na hranici výkonu, který běží nejrychleji na jejím vlastním hardwaru, buduje open-source agentový toolkit pro zjednodušení nasazení a sestavuje koalici AI laboratoří a firemních softwarových dodavatelů zavázaných tomuto stacku, uzavírá stejnou sázku, jakou kdysi uzavřela s CUDA: že kdo ovládne vývojářskou zkušenost, ten nakonec ovládne trh.
Model přináší smysluplné technické pokroky – zejména v propustnosti a délce kontextu – díky nimž je skutečně vhodný pro agentovou zátěž, kterou firmy začínají nasazovat. Strategie je ale zároveň o uzamčení inferenční infrastruktury pro tuto zátěž. Pro podniky, které v polovině roku 2026 hodnotí agentové platformy, je stack od Nvidie tou nejucelenější dostupnou open-source variantou.
Comments
0 comments