Pilihan arsitektur di balik Nemotron 3 Ultra adalah titik di mana Nvidia paling tajam menyimpang dari desain model bahasa besar standar. Alih-alih Transformer padat (dense) konvensional, model ini menggunakan arsitektur Latent Mixture-of-Experts (LatentMoE) hybrid yang menyisipkan lapisan model ruang-keadaan Mamba-2 dengan lapisan Mixture-of-Experts dan sejumlah kecil lapisan Attention standar .
Desain ini secara langsung mengatasi dua hambatan terbesar dalam menjalankan tugas agen jangka panjang: konsumsi memori dan kecepatan inferensi. Model ruang-keadaan seperti Mamba-2 menskalakan secara linear dengan panjang urutan, tidak seperti mekanisme attention yang meningkat secara kuadratik. Dengan menggabungkannya dengan routing MoE—di mana hanya sebagian kecil dari total parameter diaktifkan untuk setiap token—Nvidia menciptakan model yang menjaga akurasi kelas atas sekaligus berjalan jauh lebih cepat daripada pesaing dengan kecerdasan setara .
Arsitektur ini juga menggabungkan Multi-Token Prediction (MTP), teknik di mana model memprediksi beberapa token masa depan secara bersamaan selama proses pembuatan. Ini berfungsi sebagai bentuk native speculative decoding, yang semakin meningkatkan throughput tanpa memerlukan model draft terpisah .
Jendela konteks 1 juta token adalah pilihan yang disengaja lainnya. Dalam alur kerja agen, model harus mempertahankan status di seluruh puluhan atau ratusan panggilan alat (tool calls), menyimpan riwayat perencanaan panjang dalam memori, dan menalar melalui codebase atau koleksi dokumen berukuran besar. Jendela konteks yang lebih kecil akan memaksa agen untuk memotong atau meringkas, yang berpotensi menghilangkan informasi penting. Batas 1 juta token memungkinkan status, log, dan rencana agen penuh untuk bertahan di seluruh sesi yang berkelanjutan .
Pada Artificial Analysis Intelligence Index—tolok ukur gabungan yang mengukur kemampuan model di berbagai dimensi—Nemotron 3 Ultra mencetak skor 48, menjadikannya model open-weight peringkat tertinggi dari pengembang AS mana pun . Skor ini menempatkannya di depan Llama 3.1 405B dan Mixtral 8x22B, meskipun masih tertinggal dari model terbuka papan atas buatan Tiongkok dalam hal kemampuan keseluruhan
.
Namun, angka yang mungkin lebih signifikan adalah throughput. Menurut laporan teknis Nvidia, Nemotron 3 Ultra mencapai hingga ~6× throughput inferensi lebih tinggi dibandingkan dengan LLM terbuka canggih lainnya, sambil mempertahankan akurasi yang seimbang . Pada format terkuantisasi NVFP4 yang berjalan di platform Blackwell Nvidia, model ini mencapai inferensi 5× lebih cepat dan mengurangi total biaya tugas agen yang kompleks hingga 30 persen
.
Perbandingan throughput spesifik dari laporan teknis menunjukkan Nemotron 3 Ultra mencapai throughput 5.9× lebih tinggi daripada GLM-5.1-754B, 4.8× lebih tinggi daripada Kimi-K2.6-1T, dan 1.6× lebih tinggi daripada Qwen-3.5-397B, semuanya pada pengaturan input 8.000 token dan output 64.000 token .
Namun, cerita tolok ukur tidak semuanya tentang dominasi. Pada tolok ukur individu seperti MMLU, HumanEval, dan GSM8K, model ini mengungguli Llama 3.1 405B dan Mixtral 8x22B, tetapi data sumber menunjukkan hasil yang beragam terhadap model seperti GPT-4o pada metrik tertentu . Laporan teknis itu sendiri membingkai keunggulannya sebagai berada pada batas frontier throughput-inferensi-ke-akurasi, bukan sekadar kepemimpinan akurasi mentah
.
Nvidia merilis bobot model di Hugging Face dalam dua format: versi terkuantisasi NVFP4 (NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4) untuk kecepatan maksimum pada perangkat keras Blackwell, dan versi BF16 penuh untuk lingkungan yang membutuhkan presisi tertinggi . Bobot ini terbuka di bawah lisensi OpenMDW dari Linux Foundation, dan Nvidia telah berkomitmen untuk merilis resep pelatihan serta dataset di mana lisensi mengizinkannya
.
Namun, persyaratan perangkat kerasnya sangat tinggi. Konfigurasi minimum untuk penerapan adalah 4× GPU GB200, 4× B200, 4× GB300, 4× B300, atau 8× GPU H100 . Bagi pengembang yang ingin bereksperimen secara lokal atau di infrastruktur yang lebih ringan, versi terkuantisasi GGUF tersedia melalui Unsloth, dengan opsi 1-bit dinamis yang memakan sekitar 189GB ruang disk
.
Penerapan di cloud disederhanakan melalui ketersediaan day-zero di Amazon SageMaker JumpStart, yang menawarkan penerapan satu klik untuk perusahaan yang sudah beroperasi di infrastruktur AWS .
Nemotron 3 Ultra bukanlah pengumuman produk yang terisolasi. Ini adalah bagian paling terlihat dari dorongan strategis yang jauh lebih besar oleh Nvidia untuk menjadi penyedia infrastruktur default untuk agen AI perusahaan. Komponen dari dorongan ini terbagi dalam tiga kategori.
Diumumkan di GTC 2026 pada bulan Maret, Koalisi Nemotron adalah kelompok kolaboratif dari lab AI dan perusahaan yang membangun model terbuka frontier di infrastruktur DGX Cloud Nvidia. Anggota termasuk Cursor, Mistral AI, Perplexity, dan puluhan lainnya. Di Computex, Nvidia menambahkan H Company, NAVER Cloud, Nous Research, dan Prime Intellect sebagai anggota baru .
Tujuan koalisi ini adalah untuk mengumpulkan keahlian, data, dan komputasi guna memajukan model terbuka frontier, dengan penekanan khusus pada membangun harness agen terbaik untuk model-model ini dan menyediakan observabilitas komprehensif ke dalam perilaku agen . Mitra koalisi mendapatkan akses awal ke rilis model Nemotron baru sebelum ketersediaan publik dan integrasi yang dipilih dengan infrastruktur agen Nvidia
.
Pada acara GTC yang sama, Nvidia meluncurkan apa yang disebutnya Nvidia Agent Toolkit, tumpukan open-source yang dirancang untuk meruntuhkan kompleksitas penerapan agen otonom ke dalam satu pipeline yang dioptimalkan untuk Nvidia. Toolkit ini mencakup NemoClaw (versi Nvidia yang diperkuat dari runtime agen otonom OpenClaw), OpenShell untuk eksekusi yang aman, pustaka CUDA-X yang sudah dilengkapi dengan keterampilan agen seperti optimasi dan retrieval, serta keluarga model Nemotron itu sendiri .
Arsitektur toolkit ini patut dicatat: ia agnostik terhadap framework, yang berarti perusahaan dapat menggunakannya dengan LangChain, CrewAI, AutoGen, atau lapisan orkestrasi mereka sendiri. Taruhannya adalah bahwa dengan membuat tumpukan yang benar-benar berguna dan open source, Nvidia memastikan bahwa saat perusahaan menerapkan armada agen dalam skala besar, mereka secara default menggunakan GPU Nvidia di bawahnya .
Lebih dari 150 mitra pendiri telah berkomitmen untuk membangun agen AI di infrastruktur Nvidia, termasuk platform perangkat lunak besar seperti CrowdStrike, Palantir, Adobe, Salesforce, SAP, ServiceNow, dan Siemens . Pada Maret 2026, LangChain—yang kerangka kerjanya telah melampaui 1 miliar unduhan—mengumumkan platform AI agentic perusahaan yang komprehensif yang dibangun langsung di atas model Nemotron dan Agent Toolkit Nvidia, dengan LangChain sendiri bergabung dengan Koalisi Nemotron
.
Kedalaman integrasi ini penting. Platform rekayasa agen LangSmith milik LangChain yang dikombinasikan dengan infrastruktur Nvidia menciptakan pipeline ujung-ke-ujung yang mencakup pengembangan, penerapan, pemantauan, dan audit. Bagi perusahaan yang sudah berkomitmen pada salah satu vendor, kemitraan ini mengurangi gesekan dalam membangun sistem agen produksi .
Nvidia secara eksplisit memposisikan Nemotron 3 Ultra sebagai model open-weight paling cerdas buatan AS, dan pembingkaian ini penting. Frontier open-weight dalam beberapa bulan terakhir telah didominasi oleh model-model Tiongkok dari DeepSeek, Qwen, dan lainnya. Nemotron 3 Ultra adalah tandingan Nvidia—bukan dengan mengalahkan model Tiongkok pada skor tolok ukur mentah, tetapi dengan mengoptimalkan untuk beban kerja spesifik (agen yang berjalan lama) dan perangkat keras spesifik (GPU Blackwell dengan NVFP4) yang benar-benar akan digunakan oleh pelanggan perusahaan .
Model ini mendukung kontrol anggaran penalaran waktu inferensi, yang berarti pengguna dapat menyeimbangkan antara kecepatan dan kedalaman penalaran tergantung pada tugas . Konfigurabilitas ini penting untuk sistem agen di mana subtugas yang berbeda memerlukan tingkat upaya kognitif yang berbeda—langkah perencanaan mungkin membutuhkan penalaran mendalam, sementara langkah pemanggilan alat membutuhkan kecepatan.
Dukungan bahasa mencakup Inggris, Prancis, Spanyol, Italia, Jerman, Jepang, Korea, Portugis, dan Mandarin, membuatnya layak untuk penerapan perusahaan multinasional .
Nemotron 3 Ultra bukan terutama tentang mencetak rekor tolok ukur. Ini tentang membangun infrastruktur baku untuk agen AI perusahaan. Dengan membuka model skala frontier yang berjalan paling cepat di perangkat keras Nvidia sendiri, membangun toolkit agen open-source yang menyederhanakan penerapan, dan membentuk koalisi lab AI serta vendor perangkat lunak perusahaan yang berkomitmen pada tumpukan itu, Nvidia membuat taruhan yang sama seperti yang dibuatnya dengan CUDA: bahwa menguasai pengalaman pengembang pada akhirnya menguasai pasar.
Model ini memberikan kemajuan teknis yang berarti—terutama dalam throughput dan panjang konteks—yang membuatnya benar-benar cocok untuk beban kerja agen yang mulai diterapkan oleh perusahaan. Tetapi strateginya juga tentang mengunci infrastruktur inferensi untuk beban kerja tersebut. Bagi perusahaan yang mengevaluasi platform agen pada pertengahan 2026, tumpukan Nvidia sekarang adalah opsi open-source terlengkap yang tersedia.
Comments
0 comments