Nvidia'yı standart büyük dil modeli tasarımından en keskin şekilde ayıran nokta, mimari tercihlerinde yatıyor. Geleneksel yoğun bir Transformer yerine model, Mamba-2 durum-uzay modeli katmanlarını, Uzman Karması katmanlarıyla ve az sayıda standart Dikkat (Attention) katmanıyla iç içe geçiren hibrit Gizli Uzman Karması (LatentMoE) mimarisini kullanıyor .
Bu tasarım, uzun süreli ajan görevlerindeki en büyük iki darboğazı doğrudan hedefliyor: bellek tüketimi ve çıkarım hızı. Mamba-2 gibi durum-uzay modelleri, dikkat mekanizmalarının aksine, dizi uzunluğuyla ikinci dereceden değil doğrusal olarak ölçeklenir. Bunu, herhangi bir token için toplam parametrelerin yalnızca bir kısmının etkinleştirildiği MoE yönlendirmesiyle birleştiren Nvidia, karşılaştırılabilir zekadaki rakiplerinden önemli ölçüde daha hızlı çalışırken üst düzey doğruluğu koruyan bir model elde ediyor .
Mimari ayrıca, modelin üretim sırasında aynı anda birden fazla gelecek token'ı tahmin ettiği bir teknik olan Çoklu Token Tahmini (Multi-Token Prediction - MTP) içeriyor. Bu, ayrı bir taslak modele ihtiyaç duymadan verimi daha da artıran bir tür yerel spekülatif kod çözme işlevi görüyor .
1 milyon token'lık bağlam penceresi de bilinçli bir tercih. Ajan iş akışlarında model, onlarca veya yüzlerce araç çağrısı boyunca durumu korumalı, uzun planlama geçmişlerini bellekte tutmalı ve büyük kod tabanları veya belge koleksiyonları üzerinde akıl yürütmelidir. Daha küçük bir bağlam penceresi, ajanları kritik bilgileri kaybederek kısaltmaya veya özetlemeye zorlar. 1 milyon token sınırı, tüm ajan durumunun, kayıtlarının ve planlarının uzun süreli oturumlar boyunca kalıcı olmasını sağlar .
Model yeteneğini birden çok boyutta ölçen bileşik bir kıyaslama olan Artificial Analysis Zeka Endeksi'nde Nemotron 3 Ultra 48 puan alarak herhangi bir ABD'li geliştiricinin en yüksek dereceli açık ağırlıklı modeli oldu . Bu puan, onu Llama 3.1 405B ve Mixtral 8x22B'nin önüne taşısa da, genel yetenek açısından en iyi Çin açık modellerinin gerisinde kalıyor
.
Ancak asıl çarpıcı rakam, verimlilik olabilir. Nvidia'nın teknik raporuna göre Nemotron 3 Ultra, diğer son teknoloji açık büyük dil modellerine kıyasla yaklaşık 6 kata kadar daha yüksek çıkarım verimi elde ederken, eş değer doğruluğu koruyor . Nvidia'nın Blackwell platformunda çalışan NVFP4 nicelenmiş formatında model, 5 kat daha hızlı çıkarıma ulaşıyor ve karmaşık ajan görevlerinin toplam maliyetini yüzde 30'a kadar düşürüyor
.
Teknik rapordaki belirli verim karşılaştırmaları, 8.000 token giriş ve 64.000 token çıkış ayarında Nemotron 3 Ultra'nın GLM-5.1-754B'den 5,9 kat, Kimi-K2.6-1T'den 4,8 kat ve Qwen-3.5-397B'den 1,6 kat daha yüksek verim elde ettiğini gösteriyor .
Yine de her şey toz pembe değil. MMLU, HumanEval ve GSM8K gibi bireysel kıyaslamalarda model, Llama 3.1 405B ve Mixtral 8x22B'den daha iyi performans gösterse de, kaynak veriler GPT-4o gibi modellere karşı belirli metriklerde karışık sonuçlar olduğunu ortaya koyuyor . Teknik raporun kendisi, avantajı salt doğruluk liderliğinden ziyade çıkarım-verimi-doğruluk sınırında konumlandırıyor
.
Nvidia, model ağırlıklarını Hugging Face'te iki formatta yayınladı: Blackwell donanımında maksimum hız için NVFP4 nicelenmiş sürüm (NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4) ve en yüksek hassasiyete ihtiyaç duyan ortamlar için tam BF16 sürümü . Ağırlıklar, Linux Vakfı'nın OpenMDW lisansı altında açık olup, Nvidia lisanslı olduğu yerlerde eğitim tariflerini ve veri setlerini yayınlamayı taahhüt etti
.
Ancak donanım gereksinimleri oldukça yüksek. Dağıtım için minimum yapılandırma 4× GB200, 4× B200, 4× GB300, 4× B300 veya 8× H100 GPU'dan oluşuyor . Yerel olarak veya daha hafif altyapılarda deneme yapmak isteyen geliştiriciler için, Unsloth aracılığıyla GGUF nicelenmiş sürümler mevcut olup, dinamik 1 bit seçeneği yaklaşık 189 GB disk alanı kaplıyor
.
Bulut dağıtımı, halihazırda AWS altyapısında çalışan kuruluşlar için tek tıklamayla dağıtım sunan Amazon SageMaker JumpStart'te birinci günden kullanılabilirlik ile kolaylaştırıldı .
Nemotron 3 Ultra, izole bir ürün duyurusu değil. Nvidia'nın kurumsal yapay zeka ajanları için varsayılan altyapı sağlayıcısı olma yönündeki çok daha büyük stratejik hamlesinin en görünür parçası. Bu hamlenin bileşenleri üç kategoriye ayrılıyor.
Mart 2026'da GTC'de duyurulan Nemotron Koalisyonu, Nvidia'nın DGX Cloud altyapısında öncü açık modeller geliştiren yapay zeka laboratuvarları ve şirketlerinden oluşan işbirlikçi bir grup. Üyeler arasında Cursor, Mistral AI, Perplexity ve onlarca başka kuruluş yer alıyor. Computex'te Nvidia, H Company, NAVER Cloud, Nous Research ve Prime Intellect'i yeni üyeler olarak ekledi .
Koalisyonun amacı, açık öncü modelleri ilerletmek için uzmanlığı, veriyi ve hesaplama gücünü bir araya getirmek; bu modeller için en iyi ajan koşum takımlarını oluşturmaya ve ajan davranışına kapsamlı gözlemlenebilirlik sağlamaya özel bir vurgu yapmak . Koalisyon ortakları, halka açıklanmadan önce yeni Nemotron model sürümlerine erken erişim ve Nvidia'nın ajan altyapısıyla tercihli entegrasyon gibi avantajlar elde ediyor
.
Aynı GTC etkinliğinde Nvidia, otonom ajanları dağıtmanın karmaşıklığını tek bir Nvidia optimize edilmiş hatta indirgemek için tasarlanmış açık kaynaklı bir yığın olan Nvidia Agent Toolkit'i tanıttı. Araç seti, NemoClaw (Nvidia'nın OpenClaw otonom ajan çalışma zamanının güçlendirilmiş sürümü), güvenli yürütme için OpenShell, optimizasyon ve geri getirme gibi ajan becerileriyle önceden yüklenmiş CUDA-X kütüphaneleri ve Nemotron model ailesinin kendisini içeriyor .
Araç setinin mimarisi dikkat çekici: çerçeveden bağımsız, yani kuruluşlar bunu LangChain, CrewAI, AutoGen veya kendi orkestrasyon katmanlarıyla kullanabilir. Buradaki bahis, yığını gerçekten kullanışlı ve açık kaynaklı hale getirerek, kuruluşlar büyük ölçekte ajan filoları dağıttıkça altta varsayılan olarak Nvidia GPU'larını kullanmalarını sağlamak .
CrowdStrike, Palantir, Adobe, Salesforce, SAP, ServiceNow ve Siemens gibi büyük yazılım platformları da dahil olmak üzere 150'den fazla kurucu ortak, Nvidia'nın altyapısında yapay zeka ajanları inşa etmeyi taahhüt etti . Mart 2026'da, çerçeveleri 1 milyar indirmeyi aşan LangChain, doğrudan Nvidia'nın Nemotron modelleri ve Agent Toolkit'i üzerine inşa edilmiş kapsamlı bir kurumsal ajan yapay zeka platformunu duyurdu ve LangChain'in kendisi de Nemotron Koalisyonu'na katıldı
.
Bu entegrasyonların derinliği önemli. LangChain'in LangSmith ajan mühendisliği platformu ile Nvidia'nın altyapısının birleşimi, geliştirme, dağıtım, izleme ve denetimi kapsayan uçtan uca bir hat oluşturuyor. Halihazırda bu tedarikçilerden birine bağlı olan kuruluşlar için bu ortaklık, üretim ajan sistemleri kurmanın önündeki sürtünmeyi azaltıyor .
Nvidia, Nemotron 3 Ultra'yı açıkça en zeki ABD açık ağırlıklı modeli olarak konumlandırıyor ve bu çerçeveleme önemli. Açık ağırlıklı model cephesi son aylarda DeepSeek, Qwen ve diğer Çinli modellerin hakimiyetindeydi. Nemotron 3 Ultra, Nvidia'nın buna cevabı—mutlaka Çin modellerini ham kıyaslama puanlarında yenerek değil, kurumsal müşterilerin gerçekten kullanacağı belirli iş yükü (uzun süreli ajanlar) ve belirli donanım (NVFP4'lü Blackwell GPU'ları) için optimize ederek .
Model, çıkarım zamanı akıl yürütme bütçesi kontrolünü destekliyor, yani kullanıcılar göreve bağlı olarak hız ve akıl yürütme derinliği arasında takas yapabiliyor . Bu yapılandırılabilirlik, farklı alt görevlerin farklı düzeyde bilişsel çaba gerektirdiği ajan sistemleri için önemlidir—bir planlama adımı derin akıl yürütme gerektirirken, bir araç çağırma adımı hıza ihtiyaç duyar.
Dil desteği İngilizce, Fransızca, İspanyolca, İtalyanca, Almanca, Japonca, Korece, Portekizce ve Çince'yi kapsayarak çok uluslu kurumsal dağıtımlar için uygun hale getiriyor .
Nemotron 3 Ultra, öncelikle kıyaslama rekorları kırmakla ilgili değil. Kurumsal yapay zeka ajanları için varsayılan altyapıyı oluşturmakla ilgili. Nvidia, kendi donanımında en hızlı çalışan öncü ölçekli bir modeli açık kaynaklı hale getirerek, dağıtımı basitleştiren açık kaynaklı bir ajan araç seti inşa ederek ve bu yığına bağlı bir yapay zeka laboratuvarları ve kurumsal yazılım satıcıları koalisyonu kurarak, CUDA ile yaptığı aynı bahsi oynuyor: geliştirici deneyimine sahip olanın, eninde sonunda pazarın da sahibi olacağına dair.
Model, özellikle verim ve bağlam uzunluğu konusunda, kurumların dağıtmaya başladığı ajan iş yükleri için onu gerçekten uygun kılan anlamlı teknik ilerlemeler sunuyor. Ancak strateji, aynı zamanda bu iş yükleri için çıkarım altyapısını kilitlemekle de ilgili. 2026 ortasında ajan platformlarını değerlendiren kuruluşlar için Nvidia yığını, şu anda mevcut olan en eksiksiz açık kaynaklı seçenek.
Comments
0 comments