De arkitektoniske valg bag Nemotron 3 Ultra er, hvor Nvidia for alvor skiller sig ud fra den traditionelle designskole for store sprogmodeller. I stedet for en konventionel "tæt" Transformer-model, anvender Ultra en hybrid Latent Mixture-of-Experts (LatentMoE) arkitektur, der fletter Mamba-2 state-space model-lag (SSM) sammen med MoE-lag og enkelte standard Attention-lag .
Dette design adresserer direkte de to største flaskehalse i langvarige agentopgaver: hukommelsesforbrug og inferenshastighed. State-space modeller som Mamba-2 skalerer lineært med sekvenslængden, i modsætning til traditionelle attention-mekanismer, der skalerer kvadratisk. Ved at kombinere dem med MoE-routing—hvor kun en brøkdel af de samlede parametre aktiveres for et givent token—opnår Nvidia en model, der bevarer en høj præcision og samtidig kører markant hurtigere end konkurrenter med tilsvarende intelligens .
Arkitekturen inkorporerer også Multi-Token Prediction (MTP), en teknik hvor modellen forudsiger flere fremtidige tokens samtidigt. Dette fungerer som en indbygget form for "spekulativ dekodning", der øger gennemløbet yderligere uden at kræve en separat "kladdemodel" .
Det enorme kontekstvindue på 1 million tokens er et andet bevidst valg. I agent-workflows skal modellen kunne huske tværs af dusinvis eller hundredvis af værktøjskald, holde styr på lange planlægningshistorikker og ræsonnere over store kodebaser eller dokumentsamlinger . Et mindre vindue ville tvinge agenter til at forkorte eller opsummere og dermed miste kritisk information. Med 1-million-token grænsen kan den fulde agent-tilstand, alle logs og planer forblive intakte under længerevarende sessioner.
På Artificial Analysis Intelligence Index – en sammensat benchmark, der måler modelkapacitet på tværs af flere dimensioner – scorer Nemotron 3 Ultra 48, hvilket gør den til den højest rangerede open-weights-model fra en amerikansk udvikler . Scoren placerer den foran konkurrenter som Llama 3.1 405B og Mixtral 8x22B, men den ligger stadig bag de førende kinesiske åbne modeller i den samlede intelligensscore
.
Men det mere betydningsfulde tal kan være gennemløbshastigheden. Ifølge Nvidias tekniske rapport opnår Nemotron 3 Ultra op til cirka 6× højere inferens-gennemløb sammenlignet med andre førende åbne store sprogmodeller, samtidig med at den holder en tilsvarende nøjagtighed . På det særlige NVFP4-format, som kører på Nvidias Blackwell-platform, er modellen 5× hurtigere og reducerer de samlede omkostninger ved komplekse agent-opgaver med op til 30 procent
.
Specifikke gennemløbstal fra den tekniske rapport viser, at Nemotron 3 Ultra opnår 5,9× højere gennemløb end GLM-5.1-754B, 4,8× højere end Kimi-K2.6-1T, og 1,6× højere end Qwen-3.5-397B, alle i en opsætning med 8.000 tokens input og 64.000 tokens output .
Historien i benchmark-tabellerne er dog ikke kun sejre. På individuelle tests som MMLU, HumanEval og GSM8K overgår modellen ganske vist Llama 3.1 405B og Mixtral 8x22B, men kildedata viser blandede resultater mod en model som GPT-4o på visse parametre . Den tekniske rapport indrammer selv fordelen som værende på "inferens-gennemløb-til-nøjagtigheds-fronten" snarere end en ren føring i rå nøjagtighed
. Med andre ord: det, den tilbyder, er en markant bedre balance mellem pris, hastighed og kvalitet til en specifik type opgaver.
Nvidia frigav modellens vægte ("weights") på Hugging Face i to formater: den komprimerede NVFP4-version til maksimal hastighed på Blackwell-hardware og en fuld BF16-version til miljøer, der kræver den højeste præcision . Vægtene er åbne under Linux Foundation's OpenMDW-licens, og Nvidia har forpligtet sig til at frigive træningsopskrifter og datasæt, hvor det er licensmæssigt muligt
.
Hardwarekravene er dog stejle. Minimumskonfigurationen for udrulning er 4× GB200, 4× B200, 4× GB300, 4× B300, eller 8× H100 GPU'er . For udviklere, der ønsker at eksperimentere lokalt eller på lettere infrastruktur, er der GGUF-komprimerede versioner tilgængelige gennem Unsloth, hvor den dynamiske 1-bit-løsning fylder cirka 189 GB på disken
.
Cloud-udrulning er strømlinet med dag-0 tilgængelighed på Amazon SageMaker JumpStart, der tilbyder "ét-klik-udrulning" for virksomheder, der allerede opererer på AWS-infrastruktur . Det gør det betydeligt lettere for en stor IT-afdeling at komme i gang.
Nemotron 3 Ultra er ikke en isoleret produktlancering. Den er det mest synlige element i en meget større strategisk satsning fra Nvidias side på at blive standard-infrastrukturleverandøren for enterprise AI-agenter. Komponenterne i denne satsning falder i tre kategorier.
Lanceret ved GTC 2026 i marts, er Nemotron Coaliton en samarbejdsgruppe af AI-labs og virksomheder, der bygger førende åbne modeller på Nvidias DGX Cloud-infrastruktur. Medlemmer inkluderer Cursor, Mistral AI, Perplexity og snesevis af andre. Ved Computex føjede Nvidia H Company, NAVER Cloud, Nous Research og Prime Intellect til som nye medlemmer .
Koalitionens formål er at samle ekspertise, data og beregningskraft for at fremme åbne frontier-modeller, med en specifik vægt på at bygge den bedste "agent-sele" (et rammeværk til at styre agenter) og levere omfattende overvågning af agentadfærd . Koalitionspartnere får tidlig adgang til nye Nemotron-modeludgivelser før offentlig tilgængelighed og foretrukken integration med Nvidias agent-infrastruktur
.
Ved samme GTC-event lancerede Nvidia, hvad de kalder Nvidia Agent Toolkit, en open-source stak designet til at samle al kompleksiteten ved at udrulle autonome agenter i en enkelt, Nvidia-optimeret pipeline. Værktøjskassen inkluderer NemoClaw (Nvidias hærdede version af OpenClaw runtime-miljøet til autonome agenter), OpenShell til sikker eksekvering, CUDA-X biblioteker forudindlæst med agent-færdigheder som optimering og informationssøgning, og selveste Nemotron-modelfamilien .
Arkitekturen i værktøjskassen er bemærkelsesværdig: den er framework-agnostisk, hvilket betyder, at virksomheder kan bruge den med LangChain, CrewAI, AutoGen eller deres eget orkestreringslag. Væddemålet er, at ved at gøre stakken ægte nyttig og open source, sikrer Nvidia, at når virksomheder udruller agentflåder i stor skala, bruger de som standard Nvidias GPU'er som underliggende motor .
Mere end 150 stiftende partnere har forpligtet sig til at bygge AI-agenter på Nvidias infrastruktur, herunder store softwareplatforme som CrowdStrike, Palantir, Adobe, Salesforce, SAP, ServiceNow og Siemens . I marts 2026 annoncerede LangChain – hvis frameworks har rundet 1 milliard downloads – en omfattende enterprise-agentisk AI-platform bygget direkte på Nvidias Nemotron-modeller og Agent Toolkit, og LangChain selv tilsluttede sig Nemotron-koalitionen
.
Dybden af disse integrationer er afgørende. LangChains agent-ingeniørplatform "LangSmith" kombineret med Nvidias infrastruktur skaber en komplet end-to-end-pipeline, der spænder over udvikling, deployment, overvågning og revision. For virksomheder, der allerede har forpligtet sig til en af leverandørerne, reducerer dette partnerskab friktionen ved at bygge produktionsklare agent-systemer markant .
Nvidia positionerer eksplicit Nemotron 3 Ultra som den mest intelligente amerikanske open-weights-model, og den indramning er vigtig. Fronten for åbne modeller er i de seneste måneder blevet domineret af kinesiske modeller fra DeepSeek, Qwen og andre. Nemotron 3 Ultra er Nvidias modtræk – ikke nødvendigvis ved at slå kinesiske modeller i rå benchmark-scorer, men ved at optimere til den specifikke arbejdsbyrde (langvarige agenter) og den specifikke hardware (Blackwell GPU'er med NVFP4), som enterprise-kunder rent faktisk vil bruge .
Modellen understøtter en særlig "reasoning budget control" under inferens, hvilket betyder, at brugere kan afveje mellem hastighed og dybde i ræsonnementet afhængigt af opgaven . Denne konfigurerbarhed er vigtig for agent-systemer, hvor forskellige delopgaver kræver forskellige niveauer af kognitiv indsats – en planlægningsopgave kræver måske dyb refleksion, mens et simpelt API-kald kræver maksimal hastighed.
Sprogsupporten er bred og dækker engelsk, fransk, spansk, italiensk, tysk, japansk, koreansk, portugisisk og kinesisk, hvilket gør den brugbar til multinationale virksomhedsudrulninger .
Nemotron 3 Ultra handler ikke primært om at sætte benchmark-rekorder. Det handler om at etablere en standardinfrastruktur for enterprise AI-agenter. Ved at open-source en model i frontlinjen, der kører hurtigst på Nvidias egen hardware, ved at bygge en open-source agent-værktøjskasse, der forenkler udrulning, og ved at samle en koalition af AI-labs og enterprise-softwareleverandører, der forpligter sig til denne stak, laver Nvidia det samme væddemål, som de gjorde med CUDA: at den, der ejer udvikleroplevelsen, i sidste ende ejer markedet.
Modellen leverer betydelige tekniske fremskridt – især inden for gennemløb og kontekstlængde – der gør den ægte velegnet til de agent-arbejdsbyrder, virksomheder er begyndt at implementere. Men strategien handler i lige så høj grad om at låse inferens-infrastrukturen til disse arbejdsbyrder. For virksomheder, der vurderer agent-platforme midt i 2026, er Nvidias samlede stak nu den mest komplette open-source-mulighed, der findes.
Comments
0 comments