De arkitektoniske valgene bak Nemotron 3 Ultra er der Nvidia skiller seg mest markant fra standard design av store språkmodeller. I stedet for en konvensjonell, tett Transformer, bruker modellen en hybrid Latent Mixture-of-Experts (LatentMoE)-arkitektur som fletter Mamba-2-tilstandsmodell-lag sammen med Mixture-of-Experts-lag og et mindre antall standard oppmerksomhetslag (Attention) .
Dette designet adresserer direkte de to største flaskehalsene i langvarige agentoppgaver: minneforbruk og inferenshastighet. Tilstandsmodeller som Mamba-2 skalerer lineært med sekvenslengden, i stedet for kvadratisk slik oppmerksomhetsmekanismer gjør. Ved å kombinere dem med MoE-ruting – der bare en brøkdel av de totale parameterne aktiveres for hvert token – oppnår Nvidia en modell som holder et høyt nivå av nøyaktighet samtidig som den kjører betydelig raskere enn konkurrenter med tilsvarende intelligens .
Arkitekturen inkorporerer også Multi-Token Prediction (MTP), en teknikk der modellen forutsier flere fremtidige tokens samtidig under generering. Dette fungerer som en form for innebygd spekulativ dekoding, som ytterligere øker gjennomstrømningen uten å kreve en separat "draft"-modell .
Et kontekstvindu på 1 million tokens er et annet bevisst valg. I agent-arbeidsflyter må modellen opprettholde tilstanden på tvers av dusinvis eller hundrevis av verktøykall, holde lange planleggingshistorikker i minnet og resonnere over store kodesamlinger eller dokumentsamlinger. Et mindre kontekstvindu tvinger agenter til å avkorte eller oppsummere, noe som kan føre til tap av kritisk informasjon. Grensen på 1 million tokens lar hele agenttilstanden, logger og planer vedvare gjennom langvarige økter .
På Artificial Analysis Intelligence Index, en sammensatt referansetest som måler modellkapasitet på tvers av flere dimensjoner, oppnår Nemotron 3 Ultra en score på 48, noe som gjør den til den høyest rangerte åpne modellen fra noen amerikansk utvikler . Poengsummen plasserer den foran Llama 3.1 405B og Mixtral 8x22B, selv om den ligger bak de fremste kinesiske åpne modellene i total kapasitet
.
Men det mer betydningsfulle tallet kan være gjennomstrømningen. Ifølge Nvidias tekniske rapport oppnår Nemotron 3 Ultra opptil ~6× høyere inferensgjennomstrømning sammenlignet med andre toppmoderne åpne store språkmodeller, samtidig som den holder følge i nøyaktighet . På NVFP4-formatet, som kjører på Nvidias Blackwell-plattform, oppnår modellen 5× raskere inferens og reduserer totalkostnaden for komplekse agentoppgaver med opptil 30 prosent
.
Spesifikke gjennomstrømningssammenligninger fra den tekniske rapporten viser at Nemotron 3 Ultra oppnår 5,9× høyere gjennomstrømning enn GLM-5.1-754B, 4,8× høyere enn Kimi-K2.6-1T og 1,6× høyere enn Qwen-3.5-397B, alt under en innstilling med 8000 input-tokens og 64 000 output-tokens .
Referansehistorien handler imidlertid ikke bare om dominans. På individuelle tester som MMLU, HumanEval og GSM8K utkonkurrerer modellen Llama 3.1 405B og Mixtral 8x22B, men kildedataene viser blandede resultater mot modeller som GPT-4o på enkelte måleparametere . Den tekniske rapporten selv rammer inn fordelen som å ligge på inferensgjennomstrømning-til-nøyaktighet-fronten, snarere enn å være ledende på rå ytelse alene
.
Nvidia slapp modellvektene på Hugging Face i to formater: den NVFP4-kvantiserte versjonen (NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4) for maksimal hastighet på Blackwell-maskinvare, og en full BF16-versjon for miljøer som trenger høyest presisjon . Vektene er åpne under Linux Foundations OpenMDW-lisens, og Nvidia har forpliktet seg til å frigi treningsmetoder og datasett der det er lisensiert
.
Maskinvarekravene er imidlertid høye. Minimumskonfigurasjonen for utrulling er 4× GB200, 4× B200, 4× GB300, 4× B300, eller 8× H100 GPUer . For utviklere som ønsker å eksperimentere lokalt eller på lettere infrastruktur, er GGUF-kvantiserte versjoner tilgjengelig gjennom Unsloth, der det dynamiske 1-bits-alternativet tar omtrent 189 GB diskplass
.
Skytjeneste-distribusjon strømlinjeformes gjennom tilgjengelighet fra dag én på Amazon SageMaker JumpStart, som tilbyr ett-klikks-distribusjon for bedrifter som allerede opererer på AWS-infrastruktur .
Nemotron 3 Ultra er ikke en isolert produktkunngjøring. Den er den mest synlige brikken i en mye større strategisk satsing fra Nvidia for å bli standard infrastrukturleverandør for bedrifts-KI-agenter. Komponentene i denne satsingen faller inn i tre kategorier.
Kunngjort på GTC 2026 i mars, er Nemotron-koalisjonen en samarbeidsgruppe av KI-laboratorier og selskaper som bygger fremragende åpne modeller på Nvidias DGX Cloud-infrastruktur. Medlemmer inkluderer Cursor, Mistral AI, Perplexity og dusinvis av andre. På Computex la Nvidia til H Company, NAVER Cloud, Nous Research og Prime Intellect som nye medlemmer .
Koalisjonens formål er å samle ekspertise, data og datakraft for å fremme åpne modeller i front, med et spesifikt fokus på å bygge de beste agent-harniskene for disse modellene og tilby omfattende observerbarhet av agentadferd . Koalisjonspartnere får tidlig tilgang til nye Nemotron-modellutgivelser før offentlig tilgjengelighet og foretrukket integrasjon med Nvidias agentinfrastruktur
.
På det samme GTC-arrangementet avduket Nvidia det de kaller Nvidia Agent Toolkit, en åpen kildekode-stack designet for å forenkle kompleksiteten ved å utplassere autonome agenter til en enkelt, Nvidia-optimalisert rørledning. Verktøykassen inkluderer NemoClaw (Nvidias herdede versjon av OpenClaw-kjøretiden for autonome agenter), OpenShell for sikker kjøring, CUDA-X-biblioteker forhåndslastet med agentferdigheter som optimalisering og gjenfinning, og selve Nemotron-modellfamilien .
Arkitekturen til verktøykassen er bemerkelsesverdig: den er rammeverksagnostisk, hvilket betyr at bedrifter kan bruke den med LangChain, CrewAI, AutoGen eller sitt eget orkestreringslag. Innsatsen er at ved å gjøre stacken genuint nyttig og åpen kildekode, sikrer Nvidia at når bedrifter utplasserer agentflåter i stor skala, ender de opp med å bruke Nvidia GPUer under panseret .
Mer enn 150 grunnleggende partnere har forpliktet seg til å bygge KI-agenter på Nvidias infrastruktur, inkludert store programvareplattformer som CrowdStrike, Palantir, Adobe, Salesforce, SAP, ServiceNow og Siemens . I mars 2026 kunngjorde LangChain – hvis rammeverk har passert 1 milliard nedlastinger – en omfattende agentisk KI-plattform for bedrifter bygget direkte på Nvidias Nemotron-modeller og Agent Toolkit, der LangChain selv ble med i Nemotron-koalisjonen
.
Dybden i disse integrasjonene er viktig. LangChains LangSmith-agentutviklingsplattform kombinert med Nvidias infrastruktur skaper en ende-til-ende-rørledning som spenner over utvikling, distribusjon, overvåking og revisjon. For bedrifter som allerede er forpliktet til en av leverandørene, reduserer dette partnerskapet friksjonen ved å bygge produksjonsklare agentsystemer .
Nvidia posisjonerer eksplisitt Nemotron 3 Ultra som den mest intelligente åpne modellen fra USA, og den innrammingen er viktig. Fronten for åpne vekter har nylig vært dominert av kinesiske modeller fra DeepSeek, Qwen og andre. Nemotron 3 Ultra er Nvidias mottrekk – ikke nødvendigvis ved å slå kinesiske modeller på råskårer i referansetester, men ved å optimalisere for den spesifikke arbeidsbelastningen (langvarige agenter) og den spesifikke maskinvaren (Blackwell GPUer med NVFP4) som bedriftskunder faktisk vil bruke .
Modellen støtter kontroll over resonneringsbudsjett ved inferenstid, noe som betyr at brukere kan veksle mellom hastighet og dybde i resonneringen avhengig av oppgaven . Denne konfigurerbarheten er viktig for agentsystemer der ulike deloppgaver krever ulike nivåer av kognitiv innsats – et planleggingstrinn kan trenge dyp resonnering, mens et verktøykallstrinn trenger hastighet.
Språkstøtten omfatter engelsk, fransk, spansk, italiensk, tysk, japansk, koreansk, portugisisk og kinesisk, noe som gjør den levedyktig for multinasjonale bedriftsutrullinger .
Nemotron 3 Ultra handler ikke først og fremst om å sette rekorder i referansetester. Den handler om å etablere standardinfrastrukturen for bedrifts-KI-agenter. Ved å åpne en modell i frontlinjen som kjører raskest på Nvidias egen maskinvare, bygge et åpen kildekode-agentverktøysett som forenkler distribusjon, og sette sammen en koalisjon av KI-laboratorier og bedriftsprogramvareleverandører forpliktet til denne stacken, gjør Nvidia den samme innsatsen som de gjorde med CUDA: at den som eier utvikleropplevelsen, til slutt eier markedet.
Modellen leverer meningsfulle tekniske fremskritt – spesielt innen gjennomstrømning og kontekstlengde – som gjør den genuint egnet for agentarbeidsbelastningene bedrifter begynner å ta i bruk. Men strategien handler like mye om å låse inne inferensinfrastrukturen for disse arbeidsbelastningene. For bedrifter som evaluerer agentplattformer i midten av 2026, er Nvidia-stacken nå det mest komplette åpen kildekode-alternativet som er tilgjengelig.
Comments
0 comments