Pilihan seni bina di sebalik Nemotron 3 Ultra adalah di mana Nvidia paling ketara menyimpang dari reka bentuk model bahasa besar standard. Daripada model Transformer padat konvensional, model ini menggunakan seni bina hibrid Latent Mixture-of-Experts (LatentMoE) yang menyelang-selikan lapisan model state-space Mamba-2 dengan lapisan Mixture-of-Experts dan sebilangan kecil lapisan Attention standard .
Reka bentuk ini secara langsung menangani dua hambatan terbesar dalam tugas agen jangka panjang: penggunaan memori dan kelajuan inferens. Model state-space seperti Mamba-2 berskala linear dengan panjang jujukan, bukannya kuadratik seperti mekanisme perhatian. Dengan menggabungkannya dengan laluan MoE—di mana hanya sebahagian kecil daripada jumlah parameter diaktifkan untuk mana-mana token tertentu—Nvidia mencapai model yang mengekalkan ketepatan tahap termaju sambil berjalan jauh lebih pantas daripada pesaing dengan kecerdasan setanding .
Seni bina ini juga menggabungkan Ramalan Multi-Token (MTP), satu teknik di mana model meramalkan berbilang token masa depan secara serentak semasa penjanaan. Ini berfungsi sebagai satu bentuk penyahkodan spekulatif asli, seterusnya meningkatkan daya pemprosesan tanpa memerlukan model draf yang berasingan .
Tetingkap konteks sepanjang 1 juta token adalah satu lagi pilihan yang disengajakan. Dalam aliran kerja agen, model mesti mengekalkan keadaan merentasi berpuluh-puluh atau beratus-ratus panggilan alat, menyimpan sejarah perancangan yang panjang dalam ingatan, dan menaakul berdasarkan pangkalan kod atau koleksi dokumen yang besar. Tetingkap konteks yang lebih kecil memaksa agen untuk memotong atau meringkaskan, lalu kehilangan maklumat kritikal. Had 1 juta token ini membolehkan keadaan, log, dan rancangan agen penuh kekal berterusan sepanjang sesi yang berpanjangan .
Pada Indeks Kecerdasan Artificial Analysis—penanda aras komposit yang mengukur keupayaan model merentasi pelbagai dimensi—Nemotron 3 Ultra mencatatkan skor 48, menjadikannya model 'open-weight' dengan kedudukan tertinggi daripada mana-mana pembangun AS . Skor ini meletakkannya di hadapan Llama 3.1 405B dan Mixtral 8x22B, walaupun ia masih di belakang model terbuka utama China dari segi keupayaan keseluruhan
.
Namun, angka yang lebih penting mungkin adalah daya pemprosesannya. Menurut laporan teknikal Nvidia, Nemotron 3 Ultra mencapai sehingga ~6× daya pemprosesan inferens yang lebih tinggi berbanding model bahasa besar terbuka termaju lain sambil mengekalkan ketepatan yang setara . Dalam format terkuantisasi NVFP4 yang berjalan pada platform Blackwell Nvidia, model ini mencapai inferens 5× lebih pantas dan mengurangkan jumlah kos tugas agen kompleks sehingga 30 peratus
.
Perbandingan daya pemprosesan khusus dari laporan teknikal menunjukkan Nemotron 3 Ultra mencapai daya pemprosesan 5.9× lebih tinggi daripada GLM-5.1-754B, 4.8× lebih tinggi daripada Kimi-K2.6-1T, dan 1.6× lebih tinggi daripada Qwen-3.5-397B, semuanya pada tetapan input 8,000 token dan output 64,000 token .
Namun, kisah penanda aras ini bukanlah satu dominasi menyeluruh. Pada penanda aras individu seperti MMLU, HumanEval, dan GSM8K, model ini mengatasi Llama 3.1 405B dan Mixtral 8x22B, tetapi data sumber menunjukkan keputusan bercampur-campur berbanding model seperti GPT-4o pada metrik tertentu . Laporan teknikal itu sendiri merangka kelebihannya sebagai berada pada sempadan daya-pemprosesan-inferens-kepada-ketepatan, bukannya kepimpinan ketepatan mentah semata-mata
.
Nvidia mengeluarkan pemberat model di Hugging Face dalam dua format: versi terkuantisasi NVFP4 (NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4) untuk kelajuan maksimum pada perkakasan Blackwell, dan versi BF16 penuh untuk persekitaran yang memerlukan ketepatan tertinggi . Pemberat ini terbuka di bawah lesen OpenMDW Linux Foundation, dan Nvidia telah komited untuk mengeluarkan resipi latihan dan set data yang dilesenkan
.
Walau bagaimanapun, keperluan perkakasannya adalah sangat tinggi. Konfigurasi minimum untuk penggunaan adalah 4× GB200, 4× B200, 4× GB300, 4× B300, atau 8× H100 GPU . Bagi pembangun yang ingin bereksperimen secara tempatan atau pada infrastruktur yang lebih ringan, versi terkuantisasi GGUF tersedia melalui Unsloth, dengan pilihan 1-bit dinamik mengambil kira-kira 189GB ruang cakera
.
Penggunaan awan dipermudahkan melalui ketersediaan hari pertama di Amazon SageMaker JumpStart, yang menawarkan penggunaan 'sekali-klik' untuk perusahaan yang sudah beroperasi di infrastruktur AWS .
Nemotron 3 Ultra bukanlah satu pengumuman produk terpencil. Ia adalah bahagian paling ketara daripada satu dorongan strategik yang lebih besar oleh Nvidia untuk menjadi penyedia infrastruktur lalai untuk agen AI perusahaan. Komponen dorongan ini terbahagi kepada tiga kategori.
Diumumkan di GTC 2026 pada bulan Mac, Gabungan Nemotron ialah kumpulan kolaboratif makmal AI dan syarikat yang membina model terbuka termaju di atas infrastruktur DGX Cloud Nvidia. Ahli termasuk Cursor, Mistral AI, Perplexity, dan berpuluh-puluh yang lain. Di Computex, Nvidia menambah H Company, NAVER Cloud, Nous Research, dan Prime Intellect sebagai ahli baharu .
Tujuan gabungan ini adalah untuk mengumpulkan kepakaran, data, dan pengiraan bagi memajukan model terbuka termaju, dengan penekanan khusus untuk membina abah-abah agen terbaik untuk model ini dan menyediakan kebolehmerhatian menyeluruh terhadap tingkah laku agen . Rakan gabungan mendapat akses awal kepada keluaran model Nemotron baharu sebelum ketersediaan awam dan integrasi pilihan dengan infrastruktur agen Nvidia
.
Pada acara GTC yang sama, Nvidia melancarkan apa yang dipanggilnya Kit Alatan Agen Nvidia, satu timbunan sumber terbuka yang direka untuk menyederhanakan kerumitan penggunaan agen autonomi menjadi satu saluran paip tunggal yang dioptimumkan oleh Nvidia. Kit alatan ini termasuk NemoClaw (versi 'hardened' Nvidia bagi runtime agen autonomi OpenClaw), OpenShell untuk pelaksanaan selamat, pustaka CUDA-X yang dipra-muat dengan kemahiran agen seperti pengoptimuman dan dapatan semula, dan keluarga model Nemotron itu sendiri .
Seni bina kit alatan ini perlu diberi perhatian: ia agnostik rangka kerja, bermakna perusahaan boleh menggunakannya dengan LangChain, CrewAI, AutoGen, atau lapisan orkestrasi mereka sendiri. Pertaruhannya ialah dengan menjadikan timbunan ini benar-benar berguna dan sumber terbuka, Nvidia memastikan bahawa apabila perusahaan menggunakan armada agen secara besar-besaran, mereka akan menggunakan GPU Nvidia sebagai lalai .
Lebih 150 rakan pengasas telah komited untuk membina agen AI di atas infrastruktur Nvidia, termasuk platform perisian utama seperti CrowdStrike, Palantir, Adobe, Salesforce, SAP, ServiceNow, dan Siemens . Pada Mac 2026, LangChain—yang rangka kerjanya telah melebihi 1 bilion muat turun—mengumumkan platform AI agen perusahaan komprehensif yang dibina secara langsung di atas model Nemotron dan Kit Alatan Agen Nvidia, dengan LangChain sendiri menyertai Gabungan Nemotron
.
Kedalaman integrasi ini penting. Platform kejuruteraan agen LangSmith LangChain yang digabungkan dengan infrastruktur Nvidia mewujudkan saluran paip hujung-ke-hujung yang merangkumi pembangunan, penggunaan, pemantauan, dan pengauditan. Bagi perusahaan yang sudah komited kepada mana-mana vendor, perkongsian ini mengurangkan geseran dalam membina sistem agen pengeluaran .
Nvidia secara jelas meletakkan Nemotron 3 Ultra sebagai model 'open-weight' AS yang paling pintar, dan rangka kerja ini penting. Sempadan model terbuka telah didominasi dalam beberapa bulan kebelakangan ini oleh model China dari DeepSeek, Qwen, dan lain-lain. Nemotron 3 Ultra adalah tindak balas Nvidia—tidak semestinya dengan mengalahkan model China dari segi skor penanda aras mentah, tetapi dengan mengoptimumkan untuk beban kerja khusus (agen jangka panjang) dan perkakasan khusus (GPU Blackwell dengan NVFP4) yang sebenarnya akan digunakan oleh pelanggan perusahaan .
Model ini menyokong kawalan bajet penaakulan masa-inferens, bermakna pengguna boleh membuat pertukaran antara kelajuan dan kedalaman penaakulan bergantung pada tugas . Kebolehkonfigurasian ini penting untuk sistem agen di mana subtugas yang berbeza memerlukan tahap usaha kognitif yang berbeza—langkah perancangan mungkin memerlukan penaakulan mendalam, manakala langkah panggilan alat memerlukan kelajuan.
Sokongan bahasa merangkumi Bahasa Inggeris, Perancis, Sepanyol, Itali, Jerman, Jepun, Korea, Portugis, dan Cina, menjadikannya sesuai untuk penggunaan perusahaan multinasional .
Nemotron 3 Ultra bukan terutamanya tentang mencipta rekod penanda aras. Ia adalah tentang menubuhkan infrastruktur lalai untuk agen AI perusahaan. Dengan menjadikan sumber terbuka model berskala termaju yang berjalan paling pantas pada perkakasan Nvidia sendiri, membina kit alatan agen sumber terbuka yang memudahkan penggunaan, dan menghimpunkan gabungan makmal AI dan vendor perisian perusahaan yang komited kepada timbunan itu, Nvidia membuat pertaruhan yang sama seperti yang dibuatnya dengan CUDA: bahawa memiliki pengalaman pembangun akhirnya akan memiliki pasaran.
Model ini memberikan kemajuan teknikal yang bermakna—terutamanya dalam daya pemprosesan dan panjang konteks—yang menjadikannya benar-benar sesuai untuk beban kerja agen yang mula digunakan oleh perusahaan. Tetapi strateginya adalah sama tentang mengunci infrastruktur inferens untuk beban kerja tersebut. Bagi perusahaan yang menilai platform agen pada pertengahan 2026, timbunan Nvidia kini merupakan pilihan sumber terbuka paling lengkap yang tersedia.
Comments
0 comments