De arkitektoniska valen bakom Nemotron 3 Ultra är där Nvidia avviker mest markant från standarddesign för stora språkmodeller. Istället för en konventionell tät Transformer använder modellen en hybrid Latent Mixture-of-Experts-arkitektur (LatentMoE) som varvar Mamba-2 state-space model-lager med Mixture-of-Experts-lager och ett mindre antal standard Attention-lager .
Denna design adresserar direkt de två största flaskhalsarna i långvariga agentuppgifter: minnesförbrukning och inferenshastighet. State-space-modeller som Mamba-2 skalar linjärt med sekvenslängden istället för kvadratiskt, som uppmärksamhetsmekanismer gör. Genom att kombinera dem med MoE-routing – där endast en bråkdel av de totala parametrarna aktiveras för en given token – uppnår Nvidia en modell som bibehåller högsta noggrannhet samtidigt som den körs avsevärt snabbare än konkurrenter med jämförbar intelligens .
Arkitekturen innehåller även Multi-Token Prediction (MTP), en teknik där modellen förutsäger flera framtida tokens samtidigt under generering. Detta fungerar som en form av inbyggd spekulativ avkodning, vilket ytterligare ökar genomströmningen utan att kräva en separat utkastmodell .
Kontextfönstret på 1 miljon tokens är ett annat medvetet val. I agentarbetsflöden måste modellen bibehålla tillstånd över dussintals eller hundratals verktygsanrop, hålla långa planeringshistoriker i minnet och resonera över stora kodbaser eller dokumentsamlingar. Ett mindre kontextfönster tvingar agenter att trunkera eller sammanfatta, vilket gör att kritisk information går förlorad. Gränsen på 1 miljon tokens gör att hela agenttillståndet, loggar och planer kan bestå över långa sessioner .
På Artificial Analysis Intelligence Index – ett sammansatt riktmärke som mäter modellkapacitet över flera dimensioner – uppnår Nemotron 3 Ultra 48, vilket gör den till den högst rankade öppna modellen från någon amerikansk utvecklare . Poängen placerar den före Llama 3.1 405B och Mixtral 8x22B, även om den fortfarande ligger efter de främsta kinesiska öppna modellerna i total kapacitet
.
Men den mer betydelsefulla siffran kan vara genomströmningen. Enligt Nvidias tekniska rapport uppnår Nemotron 3 Ultra upp till cirka 6× högre inferensgenomströmning jämfört med andra toppmoderna öppna stora språkmodeller, samtidigt som den bibehåller likvärdig noggrannhet . På det NVFP4-kvantiserade formatet som körs på Nvidias Blackwell-plattform når modellen 5× snabbare inferens och minskar den totala kostnaden för komplexa agentuppgifter med upp till 30 procent
.
Specifika genomströmningsjämförelser från den tekniska rapporten visar att Nemotron 3 Ultra uppnår 5,9× högre genomströmning än GLM-5.1-754B, 4,8× högre än Kimi-K2.6-1T och 1,6× högre än Qwen-3.5-397B, allt vid en inställning på 8 000 tokens input och 64 000 tokens output .
Riktmärkesberättelsen är dock inte enbart dominans. På individuella riktmärken som MMLU, HumanEval och GSM8K överträffar modellen Llama 3.1 405B och Mixtral 8x22B, men källdata visar blandade resultat mot modeller som GPT-4o på vissa mätvärden . Den tekniska rapporten själv ramar in fördelen som att ligga på frontlinjen för genomströmning-till-noggrannhet snarare än enbart ledarskap i rå noggrannhet
.
Nvidia släppte modellvikterna på Hugging Face i två format: den NVFP4-kvantiserade versionen (NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4) för maximal hastighet på Blackwell-hårdvara, och en full BF16-version för miljöer som behöver högsta precision . Vikterna är öppna under Linux Foundations OpenMDW-licens, och Nvidia har åtagit sig att släppa träningsrecept och dataset där så är licensierat
.
Hårdvarukraven är dock branta. Minimikonfigurationen för driftsättning är 4× GB200, 4× B200, 4× GB300, 4× B300, eller 8× H100 GPU:er . För utvecklare som vill experimentera lokalt eller på lättare infrastruktur finns GGUF-kvantiserade versioner tillgängliga via Unsloth, där det dynamiska 1-bitarsalternativet tar cirka 189 GB diskutrymme
.
Molndriftsättning förenklas genom tillgänglighet från dag ett på Amazon SageMaker JumpStart, vilket erbjuder driftsättning med ett klick för företag som redan använder AWS-infrastruktur .
Nemotron 3 Ultra är inte en isolerad produktlansering. Det är den mest synliga delen av en mycket större strategisk satsning från Nvidia för att bli standardleverantör av infrastruktur för företags AI-agenter. Komponenterna i denna satsning faller inom tre kategorier.
Nemotron-koalitionen, som tillkännagavs vid GTC 2026 i mars, är en samarbetsgrupp av AI-labb och företag som bygger banbrytande öppna modeller på Nvidias DGX Cloud-infrastruktur. Medlemmarna inkluderar Cursor, Mistral AI, Perplexity och dussintals andra. Vid Computex lade Nvidia till H Company, NAVER Cloud, Nous Research och Prime Intellect som nya medlemmar .
Koalitionens syfte är att slå samman expertis, data och beräkningskraft för att utveckla öppna banbrytande modeller, med särskild tonvikt på att bygga de bästa agentramverken för dessa modeller och tillhandahålla omfattande observerbarhet av agentbeteende . Koalitionspartners får tidig tillgång till nya Nemotron-modellsläpp före offentlig tillgänglighet och föredragen integration med Nvidias agentinfrastruktur
.
Vid samma GTC-evenemang avtäckte Nvidia vad de kallar Nvidia Agent Toolkit, en öppen källkodsstack utformad för att förenkla komplexiteten i att driftsätta autonoma agenter i en enda, Nvidia-optimerad pipeline. Toolkitet inkluderar NemoClaw (Nvidias härdade version av OpenClaws körningsmiljö för autonoma agenter), OpenShell för säker exekvering, CUDA-X-bibliotek förladdade med agentfärdigheter som optimering och sökning, samt själva Nemotron-modellfamiljen .
Toolkitets arkitektur är anmärkningsvärd: det är ramverksagnostiskt, vilket innebär att företag kan använda det med LangChain, CrewAI, AutoGen eller sitt eget orkestreringslager. Satsningen är att genom att göra stacken genuint användbar och öppen källkod, säkerställer Nvidia att när företag driftsätter agentflottor i stor skala, blir Nvidias GPU:er standardvalet under huven .
Mer än 150 grundande partners har åtagit sig att bygga AI-agenter på Nvidias infrastruktur, inklusive stora mjukvaruplattformar som CrowdStrike, Palantir, Adobe, Salesforce, SAP, ServiceNow och Siemens . I mars 2026 tillkännagav LangChain – vars ramverk har passerat 1 miljard nedladdningar – en omfattande företagsplattform för agent-AI byggd direkt på Nvidias Nemotron-modeller och Agent Toolkit, där LangChain själva gick med i Nemotron-koalitionen
.
Djupet i dessa integrationer spelar roll. LangChains LangSmith-agentutvecklingsplattform i kombination med Nvidias infrastruktur skapar en heltäckande pipeline som spänner över utveckling, driftsättning, övervakning och granskning. För företag som redan har åtagit sig till någon av leverantörerna minskar detta partnerskap friktionen i att bygga produktionssystem för agenter .
Nvidia positionerar uttryckligen Nemotron 3 Ultra som den mest intelligenta amerikanska modellen med öppna vikter, och inramningen är viktig. Frontlinjen för öppna vikter har under de senaste månaderna dominerats av kinesiska modeller från DeepSeek, Qwen och andra. Nemotron 3 Ultra är Nvidias motdrag – inte nödvändigtvis genom att slå kinesiska modeller på råa riktmärkespoäng, utan genom att optimera för den specifika arbetsbelastningen (långvariga agenter) och den specifika hårdvaran (Blackwell GPU:er med NVFP4) som företagskunder faktiskt kommer att använda .
Modellen stöder styrning av resonemangsbudget vid inferenstid, vilket innebär att användare kan välja mellan hastighet och resonemangsdjup beroende på uppgiften . Denna konfigurerbarhet är viktig för agentsystem där olika deluppgifter kräver olika nivåer av kognitiv ansträngning – ett planeringssteg kan behöva djupt resonemang, medan ett verktygsanropssteg behöver snabbhet.
Språkstödet omfattar engelska, franska, spanska, italienska, tyska, japanska, koreanska, portugisiska och kinesiska, vilket gör den användbar för multinationella företagsdistributioner .
Nemotron 3 Ultra handlar inte främst om att sätta riktmärkesrekord. Det handlar om att etablera standardinfrastrukturen för företags AI-agenter. Genom att öppna källkoden för en modell i frontlinjen som körs snabbast på Nvidias egen hårdvara, bygga en öppen källkods-agentverktygslåda som förenklar driftsättning, och sätta samman en koalition av AI-labb och företagsmjukvaruleverantörer som är engagerade i denna stack, gör Nvidia samma vad som med CUDA: att äga utvecklarupplevelsen innebär att i slutändan äga marknaden.
Modellen levererar meningsfulla tekniska framsteg – särskilt i genomströmning och kontextlängd – som gör den genuint lämplig för de agentarbetsbelastningar företag börjar driftsätta. Men strategin handlar lika mycket om att låsa in inferensinfrastrukturen för dessa arbetsbelastningar. För företag som utvärderar agentplattformar i mitten av 2026 är Nvidias stack nu det mest kompletta alternativet med öppen källkod som finns tillgängligt.
Comments
0 comments