Le scelte architetturali dietro Nemotron 3 Ultra sono il punto in cui Nvidia si discosta più nettamente dalla progettazione standard dei modelli linguistici. Invece di un convenzionale Transformer denso, il modello utilizza un'architettura ibrida Latent Mixture-of-Experts (LatentMoE) che combina strati di modelli state-space Mamba-2 con strati Mixture-of-Experts e un numero ridotto di strati Attention standard .
Questo design affronta direttamente i due maggiori colli di bottiglia nelle attività degli agenti di lunga durata: il consumo di memoria e la velocità di inferenza. I modelli state-space come Mamba-2 scalano linearmente con la lunghezza della sequenza, anziché quadraticamente come i meccanismi di attenzione. Combinandoli con il routing MoE – dove solo una frazione dei parametri totali viene attivata per ogni token – Nvidia ha creato un modello che mantiene un'accuratezza da frontiera dell'IA, risultando però sensibilmente più veloce della concorrenza con un'intelligenza comparabile .
L'architettura incorpora anche la Predizione Multi-Token (MTP), una tecnica con cui il modello predice simultaneamente più token futuri durante la generazione. Funziona come una forma nativa di decodifica speculativa, aumentando ulteriormente il throughput senza richiedere un modello "draft" separato .
Anche la finestra di contesto da 1 milione di token è una scelta deliberata. Nei flussi di lavoro degli agenti, il modello deve mantenere lo stato attraverso decine o centinaia di chiamate a strumenti, conservare lunghe storie di pianificazione in memoria e ragionare su enormi codebase o raccolte di documenti. Una finestra di contesto più piccola costringerebbe gli agenti a troncare o riassumere, perdendo informazioni critiche. Il limite di 1M di token permette di preservare l'intero stato dell'agente, i log e i piani durante sessioni prolungate .
Sull'Intelligence Index di Artificial Analysis – un benchmark composito che misura le capacità del modello su più dimensioni – Nemotron 3 Ultra ottiene un punteggio di 48, diventando il modello open-weight con il punteggio più alto tra gli sviluppatori statunitensi . Questo punteggio lo colloca davanti a Llama 3.1 405B e Mixtral 8x22B, anche se rimane dietro ai migliori modelli aperti cinesi in termini di capacità complessive
.
Ma il numero forse più significativo è il throughput. Secondo il report tecnico di Nvidia, Nemotron 3 Ultra raggiunge fino a circa 6 volte il throughput di inferenza rispetto ad altri modelli linguistici aperti allo stato dell'arte, mantenendo al contempo un'accuratezza comparabile . Nel formato quantizzato NVFP4 eseguito sulla piattaforma Blackwell di Nvidia, il modello raggiunge un'inferenza 5 volte più veloce e riduce il costo totale delle attività agentiche complesse fino al 30 per cento
.
Dei confronti specifici sul throughput, tratti dal report tecnico, mostrano Nemotron 3 Ultra raggiungere un throughput 5,9× superiore a GLM-5.1-754B, 4,8× superiore a Kimi-K2.6-1T e 1,6× superiore a Qwen-3.5-397B, tutti in un contesto di 8.000 token di input e 64.000 token di output .
Non è però un dominio assoluto su tutti i benchmark. In test individuali come MMLU, HumanEval e GSM8K, il modello supera sì Llama 3.1 405B e Mixtral 8x22B, ma i dati disponibili evidenziano risultati contrastanti contro modelli come GPT-4o su alcune metriche . Lo stesso report tecnico inquadra il vantaggio come relativo alla frontiera "throughput di inferenza vs. accuratezza", più che alla leadership assoluta sull'accuratezza
.
Nvidia ha rilasciato i pesi del modello su Hugging Face in due formati: la versione quantizzata NVFP4 (NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4) per la massima velocità su hardware Blackwell, e una versione completa BF16 per ambienti che necessitano della massima precisione . I pesi sono aperti sotto la licenza OpenMDW della Linux Foundation, e Nvidia si è impegnata a rilasciare ricette di addestramento e dataset laddove concessi in licenza
.
I requisiti hardware, tuttavia, sono elevati. La configurazione minima per il deployment è di 4× GB200, 4× B200, 4× GB300, 4× B300 o 8× H100 GPU . Per gli sviluppatori che vogliono sperimentare localmente o su infrastrutture più leggere, sono disponibili versioni quantizzate GGUF tramite Unsloth, con l'opzione dinamica a 1 bit che occupa circa 189 GB di spazio su disco
.
Il deployment cloud è semplificato dalla disponibilità immediata su Amazon SageMaker JumpStart, che offre un deployment con un solo clic per le aziende che già operano su infrastruttura AWS .
Nemotron 3 Ultra non è un annuncio di prodotto isolato. È il tassello più visibile di una spinta strategica molto più ampia di Nvidia per diventare il fornitore di infrastruttura predefinito per gli agenti IA aziendali. Le componenti di questa spinta si articolano in tre categorie.
Annunciata al GTC 2026 a marzo, la Coalizione Nemotron è un gruppo collaborativo di laboratori di IA e aziende che costruiscono modelli aperti all'avanguardia sull'infrastruttura DGX Cloud di Nvidia. I membri includono Cursor, Mistral AI, Perplexity e dozzine di altri. Al Computex, Nvidia ha aggiunto H Company, NAVER Cloud, Nous Research e Prime Intellect come nuovi membri .
Lo scopo della coalizione è mettere in comune competenze, dati e potenza di calcolo per far progredire i modelli aperti di frontiera, con un'enfasi specifica sulla costruzione dei migliori "harness" per agenti e nel fornire un'osservabilità completa del comportamento degli stessi . I partner della coalizione ottengono l'accesso anticipato ai nuovi rilasci dei modelli Nemotron prima della disponibilità pubblica e un'integrazione preferenziale con l'infrastruttura per agenti di Nvidia
.
Allo stesso evento GTC, Nvidia ha presentato quello che chiama Nvidia Agent Toolkit, uno stack open-source progettato per ridurre la complessità del dispiegamento di agenti autonomi in un'unica pipeline ottimizzata per Nvidia. Il toolkit include NemoClaw (la versione rafforzata da Nvidia del runtime per agenti autonomi OpenClaw), OpenShell per l'esecuzione sicura, le librerie CUDA-X precaricate con abilità per agenti come l'ottimizzazione e il recupero informazioni, e la famiglia di modelli Nemotron stessa .
L'architettura del toolkit è degna di nota: è agnostica rispetto ai framework, il che significa che le aziende possono usarlo con LangChain, CrewAI, AutoGen o il proprio livello di orchestrazione. La scommessa è che, rendendo lo stack genuinamente utile e open source, Nvidia si assicuri che quando le aziende dispiegheranno flotte di agenti su larga scala, sotto il cofano ci saranno GPU Nvidia .
Più di 150 partner fondatori si sono impegnati a costruire agenti IA sull'infrastruttura Nvidia, comprese le principali piattaforme software come CrowdStrike, Palantir, Adobe, Salesforce, SAP, ServiceNow e Siemens . A marzo 2026, LangChain – i cui framework hanno superato il miliardo di download – ha annunciato una piattaforma IA agentica aziendale completa costruita direttamente sui modelli Nemotron di Nvidia e sull'Agent Toolkit, con LangChain stessa entrata a far parte della Coalizione Nemotron
.
La profondità di queste integrazioni è cruciale. La piattaforma di ingegneria per agenti LangSmith di LangChain, combinata con l'infrastruttura Nvidia, crea una pipeline end-to-end che copre sviluppo, dispiegamento, monitoraggio e audit. Per le aziende già impegnate con uno dei due vendor, questa partnership riduce l'attrito nella costruzione di sistemi di agenti in produzione .
Nvidia posiziona esplicitamente Nemotron 3 Ultra come il modello open-weight americano più intelligente, e la narrazione è importante. Il panorama dei modelli aperti di frontiera è stato dominato negli ultimi mesi da modelli cinesi come DeepSeek, Qwen e altri. Nemotron 3 Ultra è la risposta di Nvidia – non necessariamente battendo i modelli cinesi sui punteggi grezzi dei benchmark, ma ottimizzando per il carico di lavoro specifico (agenti di lunga durata) e l'hardware specifico (GPU Blackwell con NVFP4) che i clienti aziendali useranno nella pratica .
Il modello supporta il controllo del budget di ragionamento in fase di inferenza, il che significa che gli utenti possono bilanciare velocità e profondità del ragionamento a seconda del compito . Questa configurabilità è importante per i sistemi di agenti in cui diversi sotto-compiti richiedono diversi livelli di sforzo cognitivo – un passo di pianificazione potrebbe aver bisogno di un ragionamento profondo, mentre una chiamata a uno strumento richiede velocità.
Il supporto linguistico copre inglese, francese, spagnolo, italiano, tedesco, giapponese, coreano, portoghese e cinese, rendendolo una soluzione praticabile per distribuzioni aziendali multinazionali .
Nemotron 3 Ultra non punta principalmente a stabilire record nei benchmark. Mira a diventare l'infrastruttura predefinita per gli agenti IA aziendali. Rendendo open-source un modello di frontiera che gira più velocemente sul proprio hardware, costruendo un toolkit open-source per agenti che semplifica il deployment e formando una coalizione di laboratori di IA e vendor di software aziendale che si impegnano su questo stack, Nvidia sta facendo la stessa scommessa che fece con CUDA: che possedere l'esperienza dello sviluppatore significhi, alla fine, possedere il mercato.
Il modello offre progressi tecnici significativi – in particolare in termini di throughput e lunghezza del contesto – che lo rendono genuinamente adatto ai carichi di lavoro degli agenti che le aziende stanno iniziando a implementare. Ma la strategia punta anche a blindare l'infrastruttura di inferenza per quei carichi di lavoro. Per le imprese che stanno valutando piattaforme agentiche a metà del 2026, lo stack Nvidia è oggi l'opzione open-source più completa disponibile.
Comments
0 comments