To właśnie decyzje architektoniczne w Nemotron 3 Ultra są tym, co najmocniej odróżnia go od standardowych konstrukcji dużych modeli językowych. Zamiast konwencjonalnego, gęstego Transformera, model wykorzystuje hybrydową architekturę LatentMixture-of-Experts (LatentMoE). Przenika ona warstwy modelu przestrzeni stanów Mamba-2 z warstwami Mixture-of-Experts i niewielką liczbą standardowych warstw Attention .
Ta konstrukcja bezpośrednio rozwiązuje dwa największe wąskie gardła w długotrwałych zadaniach agentów: zużycie pamięci i szybkość wnioskowania. Modele przestrzeni stanów, takie jak Mamba-2, skalują się liniowo wraz z długością sekwencji, a nie kwadratowo, jak ma to miejsce w mechanizmach uwagi. Łącząc je z routingiem MoE – gdzie tylko ułamek wszystkich parametrów jest aktywowany dla danego tokena – Nvidia osiągnęła model, który utrzymuje dokładność na najwyższym poziomie, działając przy tym znacznie szybciej niż konkurencja o porównywalnej inteligencji .
Architektura zawiera również Multi-Token Prediction (MTP), technikę, w której model jednocześnie przewiduje wiele przyszłych tokenów podczas generowania. Służy to jako forma natywnego dekodowania spekulatywnego, dodatkowo zwiększając przepustowość bez potrzeby korzystania z oddzielnego modelu roboczego .
Okno kontekstowe o wielkości 1 miliona tokenów to kolejny przemyślany wybór. W przepływach pracy agentów model musi utrzymywać stan w ramach dziesiątek lub setek wywołań narzędzi, przechowywać w pamięci długie historie planowania i rozumować na podstawie dużych zbiorów kodu lub kolekcji dokumentów. Mniejsze okno kontekstowe zmusza agentów do skracania lub streszczania, co prowadzi do utraty krytycznych informacji. Limit 1 miliona tokenów pozwala na zachowanie pełnego stanu agenta, dzienników i planów przez cały czas trwania długich sesji .
W indeksie Artificial Analysis Intelligence Index – złożonym benchmarku mierzącym możliwości modelu w wielu wymiarach – Nemotron 3 Ultra osiąga wynik 48 punktów, co czyni go najwyżej ocenianym modelem o otwartych wagach spośród wszystkich firm z USA . Wynik ten plasuje go przed Llama 3.1 405B i Mixtral 8x22B, choć nadal pozostaje w tyle za czołowymi chińskimi modelami otwartymi pod względem ogólnych możliwości
.
Jednak znacznie ważniejszym wskaźnikiem może być przepustowość. Według raportu technicznego Nvidii, Nemotron 3 Ultra osiąga nawet około 6-krotnie wyższą przepustowość wnioskowania w porównaniu z innymi wiodącymi otwartymi modelami językowymi, zachowując przy tym porównywalną dokładność . W skwantyzowanym formacie NVFP4, uruchamianym na platformie Blackwell Nvidii, model jest 5 razy szybszy we wnioskowaniu i obniża całkowity koszt złożonych zadań agentowych nawet o 30 procent
.
Szczegółowe porównania przepustowości z raportu technicznego pokazują, że Nemotron 3 Ultra jest 5,9 razy szybszy niż GLM-5.1-754B, 4,8 razy szybszy niż Kimi-K2.6-1T i 1,6 razy szybszy niż Qwen-3.5-397B, przy ustawieniach 8000 tokenów na wejściu i 64000 tokenów na wyjściu .
Sytuacja w benchmarkach nie jest jednak jednoznacznie pozytywna. W pojedynczych testach, takich jak MMLU, HumanEval i GSM8K, model przewyższa Llama 3.1 405B i Mixtral 8x22B, ale dane źródłowe pokazują mieszane wyniki w porównaniu z modelami takimi jak GPT-4o w niektórych metrykach . Sam raport techniczny przedstawia przewagę jako leżenie na granicy możliwości w zakresie przepustowości wnioskowania i dokładności, a nie jako czyste przywództwo w dokładności
.
Nvidia opublikowała wagi modelu na platformie Hugging Face w dwóch formatach: wersji skwantyzowanej NVFP4 (NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4) w celu uzyskania maksymalnej prędkości na sprzęcie Blackwell oraz pełnej wersji BF16 dla środowisk wymagających najwyższej precyzji . Wagi są otwarte na licencji Linux Foundation – OpenMDW, a Nvidia zobowiązała się do udostępnienia receptur treningowych i zestawów danych, tam gdzie jest to licencjonowane
.
Wymagania sprzętowe są jednak bardzo wysokie. Minimalna konfiguracja do wdrożenia to 4× GB200, 4× B200, 4× GB300, 4× B300 lub 8× H100 układów GPU . Dla programistów, którzy chcą eksperymentować lokalnie lub na lżejszej infrastrukturze, dostępne są skwantyzowane wersje GGUF za pośrednictwem Unsloth, gdzie opcja dynamicznego 1-bitu zajmuje około 189 GB przestrzeni dyskowej
.
Wdrażanie w chmurze jest usprawnione dzięki dostępności od pierwszego dnia w Amazon SageMaker JumpStart, która oferuje wdrożenie jednym kliknięciem dla firm już działających na infrastrukturze AWS .
Nemotron 3 Ultra nie jest odosobnionym ogłoszeniem produktu. To najbardziej widoczny element znacznie większego strategicznego dążenia Nvidii do stania się domyślnym dostawcą infrastruktury dla korporacyjnych agentów AI. Elementy tego dążenia można podzielić na trzy kategorie.
Ogłoszona na konferencji GTC 2026 w marcu, Koalicja Nemotron to wspólna grupa laboratoriów i firm AI budujących najnowocześniejsze otwarte modele na infrastrukturze DGX Cloud Nvidii. Członkami są między innymi Cursor, Mistral AI, Perplexity i dziesiątki innych. Na targach Computex Nvidia dodała H Company, NAVER Cloud, Nous Research i Prime Intellect jako nowych członków .
Celem koalicji jest połączenie wiedzy, danych i mocy obliczeniowej w celu rozwijania otwartych, najnowocześniejszych modeli, ze szczególnym naciskiem na budowanie najlepszych uprzęży dla agentów i zapewnienie kompleksowej obserwowalności ich zachowań . Partnerzy koalicji otrzymują wczesny dostęp do nowych wydań modeli Nemotron przed publiczną dostępnością oraz preferencyjną integrację z infrastrukturą agentową Nvidii
.
Na tej samej konferencji GTC Nvidia zaprezentowała coś, co nazywa Nvidia Agent Toolkit – stos typu open-source zaprojektowany, aby uprościć złożoność wdrażania autonomicznych agentów do jednego, zoptymalizowanego pod kątem Nvidii potoku. Zestaw narzędzi obejmuje NemoClaw (wzmocnioną wersję środowiska uruchomieniowego OpenClaw dla autonomicznych agentów od Nvidii), OpenShell do bezpiecznego wykonywania, biblioteki CUDA-X wstępnie załadowane umiejętnościami agenta, takimi jak optymalizacja i wyszukiwanie, oraz samą rodzinę modeli Nemotron .
Architektura zestawu narzędzi jest godna uwagi: jest agnostyczna względem frameworków, co oznacza, że firmy mogą go używać z LangChain, CrewAI, AutoGen lub własną warstwą orkiestracji. Zakład jest taki, że tworząc naprawdę użyteczny i otwarty stos, Nvidia zapewnia, że gdy firmy będą wdrażać floty agentów na dużą skalę, domyślnie będą korzystać z układów GPU Nvidii .
Ponad 150 partnerów-założycieli zobowiązało się do budowania agentów AI na infrastrukturze Nvidii, w tym główni dostawcy oprogramowania, tacy jak CrowdStrike, Palantir, Adobe, Salesforce, SAP, ServiceNow i Siemens . W marcu 2026 roku firma LangChain – której frameworki przekroczyły miliard pobrań – ogłosiła stworzenie kompleksowej korporacyjnej platformy agentowej AI zbudowanej bezpośrednio na modelach Nemotron i Agent Toolkit od Nvidii, przy czym sama firma LangChain dołączyła do Koalicji Nemotron
.
Głębokość tych integracji ma znaczenie. Platforma inżynierii agentów LangSmith od LangChain w połączeniu z infrastrukturą Nvidii tworzy kompleksowy potok obejmujący rozwój, wdrażanie, monitorowanie i audyt. Dla firm już zaangażowanych w rozwiązania któregokolwiek z dostawców, to partnerstwo zmniejsza tarcia związane z budowaniem produkcyjnych systemów agentowych .
Nvidia wyraźnie pozycjonuje Nemotron 3 Ultra jako najbardziej inteligentny amerykański model o otwartych wagach i to pozycjonowanie ma znaczenie. W ostatnich miesiącach rynek modeli otwartych był zdominowany przez chińskie modele firm takich jak DeepSeek, Qwen i innych. Nemotron 3 Ultra jest odpowiedzią Nvidii – niekoniecznie poprzez pobicie chińskich modeli w surowych wynikach benchmarków, ale poprzez optymalizację pod kątem konkretnego obciążenia (długotrwali agenci) i konkretnego sprzętu (układy GPU Blackwell z NVFP4), z którego faktycznie będą korzystać klienci korporacyjni .
Model obsługuje kontrolę budżetu rozumowania w czasie wnioskowania (ang. inference-time reasoning budget control), co oznacza, że użytkownicy mogą wybierać między szybkością a głębokością rozumowania w zależności od zadania . Ta konfigurowalność jest ważna w systemach agentowych, gdzie różne podzadania wymagają różnego poziomu wysiłku poznawczego – etap planowania może potrzebować głębokiego rozumowania, podczas gdy etap wywoływania narzędzi wymaga szybkości.
Obsługa języków obejmuje angielski, francuski, hiszpański, włoski, niemiecki, japoński, koreański, portugalski i chiński, co czyni go realnym rozwiązaniem dla międzynarodowych wdrożeń korporacyjnych .
Nemotron 3 Ultra nie jest przede wszystkim modelem do ustanawiania rekordów w benchmarkach. Chodzi o ustanowienie domyślnej infrastruktury dla korporacyjnych agentów AI. Poprzez udostępnienie na otwartej licencji modelu na najwyższym poziomie, który najszybciej działa na własnym sprzęcie Nvidii, zbudowanie otwartego zestawu narzędzi agentowych, który upraszcza wdrażanie, i stworzenie koalicji laboratoriów AI oraz dostawców oprogramowania dla firm zaangażowanych w ten stos, Nvidia robi ten sam zakład, co z CUDA: że posiadanie doświadczenia programisty ostatecznie prowadzi do posiadania rynku.
Model ten wprowadza znaczące postępy techniczne – szczególnie w zakresie przepustowości i długości kontekstu – które czynią go naprawdę odpowiednim do zadań agentowych, które firmy zaczynają wdrażać. Jednak strategia ta w równym stopniu dotyczy zablokowania infrastruktury wnioskowania dla tych zadań. Dla firm oceniających platformy agentowe w połowie 2026 roku, stos Nvidii jest obecnie najpełniejszą dostępną opcją typu open-source.
Comments
0 comments