Die architektonischen Entscheidungen sind der Punkt, an dem sich Nvidia am deutlichsten vom klassischen Design grosser Sprachmodelle abhebt. Statt eines konventionellen dichten Transformers setzt das Modell auf eine hybride Latent Mixture-of-Experts (LatentMoE)-Architektur, die Mamba-2-State-Space-Model-Schichten mit Mixture-of-Experts-Schichten und einer kleinen Anzahl herkömmlicher Attention-Schichten kombiniert .
Dieses Design zielt direkt auf die beiden grössten Engpässe bei langlaufenden Agentenaufgaben ab: Speicherverbrauch und Inferenzgeschwindigkeit. State-Space-Modelle wie Mamba-2 skalieren linear mit der Sequenzlänge, statt wie Attention-Mechanismen quadratisch. Durch die Kombination mit MoE-Routing – bei dem nur ein Bruchteil der Gesamtparameter pro Token aktiviert wird – erreicht Nvidia ein Modell, das Genauigkeit auf Spitzenniveau hält und dabei wesentlich schneller läuft als Konkurrenten mit vergleichbarer Leistungsfähigkeit .
Die Architektur beinhaltet zudem Multi-Token Prediction (MTP), eine Technik, bei der das Modell mehrere zukünftige Tokens gleichzeitig während der Generierung vorhersagt. Dies dient als eine Art native spekulative Dekodierung und erhöht den Durchsatz weiter, ohne dass ein separates Entwurfsmodell benötigt wird .
Das Kontextfenster von einer Million Token ist eine weitere bewusste Entscheidung. In Agenten-Workflows muss das Modell den Zustand über Dutzende oder Hunderte von Werkzeugaufrufen hinweg aufrechterhalten, lange Planungshistorien im Speicher behalten und grosse Codebasen oder Dokumentsammlungen logisch durchdringen. Ein kleineres Kontextfenster zwingt Agenten zum Kürzen oder Zusammenfassen, wobei kritische Informationen verloren gehen. Das 1-Millionen-Token-Limit erlaubt es, den gesamten Agentenzustand, Protokolle und Pläne über ausgedehnte Sitzungen hinweg zu erhalten .
Auf dem Artificial Analysis Intelligence Index – einem zusammengesetzten Benchmark, der die Modellfähigkeiten in mehreren Dimensionen misst – erreicht Nemotron 3 Ultra einen Wert von 48 und ist damit das am höchsten bewertete Open-Weight-Modell eines US-amerikanischen Entwicklers . Dieses Ergebnis platziert es vor Llama 3.1 405B und Mixtral 8x22B, wenngleich es in der Gesamtfähigkeit hinter den führenden chinesischen Open-Modellen zurückbleibt
.
Die vielleicht bedeutendere Kennzahl ist jedoch der Durchsatz. Laut Nvidias technischem Bericht erreicht Nemotron 3 Ultra eine bis zu ungefähr sechsfach höhere Inferenzgeschwindigkeit im Vergleich zu anderen hochmodernen offenen grossen Sprachmodellen bei gleichwertiger Genauigkeit . Im NVFP4-Format, das auf Nvidias Blackwell-Plattform läuft, erreicht das Modell eine fünffach schnellere Inferenz und reduziert die Gesamtkosten komplexer agentenbasierter Aufgaben um bis zu 30 Prozent
.
Spezifische Durchsatzvergleiche aus dem technischen Bericht zeigen, dass Nemotron 3 Ultra einen 5,9-fach höheren Durchsatz als GLM-5.1-754B, einen 4,8-fach höheren als Kimi-K2.6-1T und einen 1,6-fach höheren als Qwen-3.5-397B erreicht – jeweils bei einer Einstellung von 8.000 Eingabe- und 64.000 Ausgabe-Tokens .
Die Benchmark-Geschichte ist allerdings nicht durchgehend dominant. In Einzeltests wie MMLU, HumanEval und GSM8K übertrifft das Modell Llama 3.1 405B und Mixtral 8x22B, aber die Quelldaten zeigen gemischte Ergebnisse gegenüber Modellen wie GPT-4o in bestimmten Metriken . Der technische Bericht selbst umrahmt den Vorteil als eine Führungsposition entlang der Grenze von Inferenzdurchsatz zu Genauigkeit und nicht als alleinige Führerschaft bei der reinen Genauigkeit
.
Nvidia hat die Modellgewichte auf Hugging Face in zwei Formaten veröffentlicht: die NVFP4-quantisierte Version (NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4) für maximale Geschwindigkeit auf Blackwell-Hardware und eine vollständige BF16-Version für Umgebungen, die höchste Präzision benötigen . Die Gewichte sind unter der OpenMDW-Lizenz der Linux Foundation offen, und Nvidia hat sich verpflichtet, Trainingsrezepte und Datensätze, wo lizenziert, zu veröffentlichen
.
Die Hardware-Anforderungen sind jedoch hoch. Die Mindestkonfiguration für den Einsatz beträgt 4× GB200, 4× B200, 4× GB300, 4× B300 oder 8× H100 GPUs . Für Entwickler, die lokal oder auf leichterer Infrastruktur experimentieren möchten, sind GGUF-quantisierte Versionen über Unsloth verfügbar, wobei die dynamische 1-Bit-Option etwa 189 GB Speicherplatz benötigt
.
Die Cloud-Bereitstellung wird durch die Verfügbarkeit ab Tag null auf Amazon SageMaker JumpStart vereinfacht, das eine Ein-Klick-Bereitstellung für Unternehmen bietet, die bereits auf der AWS-Infrastruktur arbeiten .
Nemotron 3 Ultra ist keine isolierte Produktankündigung. Es ist das sichtbarste Puzzleteil eines viel grösseren strategischen Vorstosses von Nvidia, um zum Standard-Infrastrukturanbieter für KI-Agenten in Unternehmen zu werden. Die Komponenten dieses Vorstosses lassen sich in drei Kategorien einteilen.
Die auf der GTC 2026 im März angekündigte Nemotron-Koalition ist ein Zusammenschluss von KI-Laboren und Unternehmen, die auf Nvidias DGX-Cloud-Infrastruktur modernste offene Modelle entwickeln. Zu den Mitgliedern gehören Cursor, Mistral AI, Perplexity und Dutzende weitere. Auf der Computex kamen H Company, NAVER Cloud, Nous Research und Prime Intellect als neue Mitglieder hinzu .
Der Zweck der Koalition ist es, Fachwissen, Daten und Rechenleistung zu bündeln, um offene Spitzenmodelle voranzutreiben, wobei ein besonderer Schwerpunkt auf dem Bau der besten Agenten-Geschirre für diese Modelle und der umfassenden Beobachtbarkeit des Agentenverhaltens liegt . Koalitionspartner erhalten vor der öffentlichen Verfügbarkeit frühzeitig Zugang zu neuen Nemotron-Modellversionen und bevorzugte Integration in Nvidias Agenteninfrastruktur
.
Auf derselben GTC-Veranstaltung stellte Nvidia das sogenannte Nvidia Agent Toolkit vor, einen Open-Source-Stack, der die Komplexität der Bereitstellung autonomer Agenten in einer einzigen, für Nvidia optimierten Pipeline bündelt. Das Toolkit umfasst NemoClaw (Nvidias gehärtete Version der OpenClaw-Autonomous-Agent-Runtime), OpenShell für sichere Ausführung, CUDA-X-Bibliotheken, die mit Agentenfähigkeiten wie Optimierung und Abruf vorgeladen sind, sowie die Nemotron-Modellfamilie selbst .
Die Architektur des Toolkits ist bemerkenswert: Es ist framework-agnostisch, was bedeutet, dass Unternehmen es mit LangChain, CrewAI, AutoGen oder ihrer eigenen Orchestrierungsschicht nutzen können. Die Wette ist, dass Nvidia durch die Tatsache, dass der Stack wirklich nützlich und quelloffen ist, sicherstellt, dass Unternehmen, die Agentenflotten in grossem Massstab einsetzen, standardmässig auf Nvidia-GPUs darunter zurückgreifen .
Mehr als 150 Gründungspartner haben sich verpflichtet, KI-Agenten auf Nvidias Infrastruktur aufzubauen, darunter grosse Softwareplattformen wie CrowdStrike, Palantir, Adobe, Salesforce, SAP, ServiceNow und Siemens . Im März 2026 kündigte LangChain – dessen Frameworks die Marke von einer Milliarde Downloads überschritten haben – eine umfassende, agentenbasierte KI-Plattform für Unternehmen an, die direkt auf Nvidias Nemotron-Modellen und dem Agent Toolkit aufbaut, wobei LangChain selbst der Nemotron-Koalition beitritt
.
Die Tiefe dieser Integrationen ist von Bedeutung. Die Kombination aus LangChains LangSmith-Agentenentwicklungsplattform und Nvidias Infrastruktur schafft eine durchgängige Pipeline, die Entwicklung, Bereitstellung, Überwachung und Prüfung umfasst. Für Unternehmen, die bereits an einen der beiden Anbieter gebunden sind, reduziert diese Partnerschaft die Reibungsverluste beim Aufbau produktiver Agentensysteme erheblich .
Nvidia positioniert den Nemotron 3 Ultra explizit als das intelligenteste US-amerikanische Open-Weight-Modell, und diese Formulierung ist wichtig. Die Spitze der offenen Modelle wurde in den letzten Monaten von chinesischen Modellen wie DeepSeek, Qwen und anderen dominiert. Nemotron 3 Ultra ist Nvidias Antwort – nicht unbedingt, indem es chinesische Modelle bei reinen Benchmark-Ergebnissen schlägt, sondern durch die Optimierung für den spezifischen Arbeitslast (langlaufende Agenten) und die spezifische Hardware (Blackwell-GPUs mit NVFP4), die Unternehmenskunden tatsächlich nutzen werden .
Das Modell unterstützt die Steuerung des Reasoning-Budgets zur Inferenzzeit, was bedeutet, dass Anwender je nach Aufgabe zwischen Geschwindigkeit und Denktiefe abwägen können . Diese Konfigurierbarkeit ist wichtig für Agentensysteme, bei denen verschiedene Teilaufgaben unterschiedliche kognitive Anstrengungen erfordern – ein Planungsschritt könnte tiefes Nachdenken benötigen, während ein Werkzeugaufruf Geschwindigkeit braucht.
Die Sprachunterstützung umfasst neben Deutsch auch Englisch, Französisch, Spanisch, Italienisch, Japanisch, Koreanisch, Portugiesisch und Chinesisch, was das Modell für multinationale Unternehmenseinsätze praktikabel macht .
Beim Nemotron 3 Ultra geht es nicht in erster Linie darum, Benchmark-Rekorde aufzustellen. Es geht darum, die Standardinfrastruktur für KI-Agenten in Unternehmen zu etablieren. Indem Nvidia ein hochmodernes Modell als Open Source veröffentlicht, das auf der eigenen Hardware am schnellsten läuft, ein quelloffenes Agenten-Toolkit bereitstellt, das die Bereitstellung vereinfacht, und eine Koalition aus KI-Laboren und Unternehmenssoftware-Anbietern versammelt, die sich diesem Stack verpflichtet fühlen, geht Nvidia dieselbe Wette ein wie einst mit CUDA: Wer die Entwicklererfahrung besitzt, besitzt irgendwann den Markt.
Das Modell liefert bedeutende technische Fortschritte – insbesondere bei Durchsatz und Kontextlänge – die es wirklich geeignet für die Agenten-Workloads machen, die Unternehmen zunehmend einsetzen. Die Strategie zielt jedoch gleichermassen darauf ab, die Inferenzinfrastruktur für diese Arbeitslasten an sich zu binden. Für Unternehmen, die Mitte 2026 Agentenplattformen evaluieren, ist der Nvidia-Stack nun die vollständigste verfügbare Open-Source-Option.
Comments
0 comments