這項設計直接解決了長時間代理任務中的兩大瓶頸:記憶體消耗與推理速度。像 Mamba-2 這類的狀態空間模型,其運算複雜度隨著序列長度呈線性成長,而非如傳統注意力機制的平方成長。藉由將其與 MoE 路由結合(在任何一個 token 上只啟動一小部分總參數),輝達打造出一款在維持前沿水準準確度的同時,推理速度大幅超越同級對手的模型 。
此架構還整合了多 token 預測(Multi-Token Prediction, MTP)技術,這是一種在生成時同時預測多個未來 token 的技術。這可被視為一種原生的推測解碼形式,無需額外的草稿模型,就能進一步提升吞吐量 。
高達 100 萬 token 的上下文視窗是另一項刻意的設計。在代理工作流程中,模型必須在數十甚至數百次的工具呼叫間維持狀態,在記憶體中保留長時間的規劃歷史,並對龐大的程式碼庫或文件集進行推理。較小的上下文視窗將迫使代理人截斷或摘要,從而遺失關鍵資訊。100 萬 token 的限制,讓完整的代理狀態、日誌和規劃,都能在持續的對談中留存 。
根據人工分析智慧指數——一個衡量模型多維度能力的綜合基準——Nemotron 3 Ultra 的得分為 48 分,使其成為全球所有美國開發者中得分最高的開放權重模型 。這個分數讓它超越了 Llama 3.1 405B 和 Mixtral 8x22B,不過在整體能力上,仍落後於頂尖的中國開放模型
。
但更關鍵的數字可能是其吞吐量。根據輝達的技術報告,Nemotron 3 Ultra 與其他頂尖的開放大型語言模型相比,實現了高達約 6 倍的推理吞吐量,同時維持同等的準確度 。在輝達 Blackwell 平台上運行的 NVFP4 量化格式下,該模型可達到 5 倍的推理速度,並將複雜代理任務的總成本降低高達 30%
。
技術報告中的具體吞吐量比較顯示,在 8000 token 輸入與 64000 token 輸出的設定下,Nemotron 3 Ultra 的吞吐量比 GLM-5.1-754B 高出 5.9 倍、比 Kimi-K2.6-1T 高出 4.8 倍、比 Qwen-3.5-397B 高出 1.6 倍 。
然而,基準測試的成績並非一面倒的碾壓。在像 MMLU、HumanEval 和 GSM8K 等個別基準上,該模型表現確實優於 Llama 3.1 405B 和 Mixtral 8x22B,但來源資料顯示,在某些指標上與 GPT-4o 等模型相比則是互有勝負 。技術報告本身也將其優勢定義為「推理吞吐量與準確度的前沿」,而非單純的原始準確度領先
。
輝達在 Hugging Face 上以兩種格式釋出模型權重:一種是 NVFP4 量化版本(NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4),可在 Blackwell 硬體上達到最高速度;另一種則是完整的 BF16 版本,適用於需要最高精確度的環境 。這些權重在 Linux 基金會的 OpenMDW 授權下開放,且輝達已承諾在許可範圍內釋出訓練配方與資料集
。
不過,硬體需求相當嚴峻。部署的最低配置為 4 張 GB200、4 張 B200、4 張 GB300、4 張 B300 或 8 張 H100 GPU 。對於想要在本地或更輕量基礎設施上進行實驗的開發者而言,可以透過 Unsloth 取得 GGUF 量化版本;其中,動態 1-bit 選項大約佔用 189GB 的磁碟空間
。
Nemotron 3 Ultra 並非一個孤立的產品發布,而是輝達一項更龐大戰略布局中最顯著的一環:成為企業級 AI 代理人的預設基礎設施供應商。這項布局的組件可分為三大類。
Nemotron 聯盟在 2026 年 3 月的 GTC 大會上宣布,是一個由 AI 實驗室和公司組成的協作組織,致力於在輝達的 DGX Cloud 基礎設施上建構前沿的開放模型。成員包括 Cursor、Mistral AI、Perplexity 等數十家機構。在 Computex 上,輝達又新增了 H Company、NAVER Cloud、Nous Research 和 Prime Intellect 等新成員 。
該聯盟的宗旨在於匯集專業知識、資料與算力,以推進開源的前沿模型,並特別強調為這些模型建構最佳的代理人框架,以及提供對代理人行為的全面可觀測性 。聯盟夥伴能在公開發布前,提前取得最新的 Nemotron 模型,並享有與輝達代理基礎設施的優先整合權
。
在同一場 GTC 大會上,輝達推出了其所謂的輝達代理人工具包,這是一個開源技術堆疊,旨在將部署自主代理人的複雜性,收斂到一條由輝達最佳化的單一管道中。此工具包包含 NemoClaw(輝達針對 OpenClaw 自主代理運行時所強化的版本)、用於安全執行的 OpenShell、預載了最佳化與檢索等代理技能的 CUDA-X 函式庫,以及 Nemotron 模型家族本身 。
該工具包的架構值得注意:它是框架無關的(framework-agnostic),意味著企業可以將其與 LangChain、CrewAI、AutoGen 或自家的編排層結合使用。其策略思維是,透過讓這個技術堆疊真正實用且開源,輝達確保當企業大規模部署代理艦隊時,它們將會預設在其底層使用輝達的 GPU 。
已有超過 150 家創始合作夥伴承諾在輝達的基礎設施上建構 AI 代理人,其中包括 CrowdStrike、Palantir、Adobe、Salesforce、SAP、ServiceNow 和西門子(Siemens)等主要軟體平台 。在 2026 年 3 月,其下載量已突破 10 億的開源框架 LangChain,宣布了直接建構在輝達 Nemotron 模型和代理人工具包之上的綜合企業代理 AI 平台,而 LangChain 本身也加入了 Nemotron 聯盟
。
這些整合的深度至關重要。LangChain 的 LangSmith 代理工程平台,結合輝達的基礎設施,創造出一個橫跨開發、部署、監控與稽核的端到端流程。對於已投入任一供應商的企業來說,此合作關係降低了建構生產級代理系統的摩擦 。
輝達明確地將 Nemotron 3 Ultra 定位為最智慧的美國開放權重模型,而這個框架設定深具意義。近幾個月來,開放權重的前沿領域一直由 DeepSeek、Qwen 等中國模型主導。Nemotron 3 Ultra 是輝達的回應——不一定是透過在原始基準分數上擊敗中國模型,而是針對企業客戶實際會使用的特定工作負載(長時間運行的代理人)和特定硬體(具備 NVFP4 的 Blackwell GPU)進行最佳化 。
該模型支援推理時間的「思考預算控制」,意味著使用者可以根據任務需求,在速度與推理深度之間進行權衡 。這種可配置性對於代理系統至關重要,因為不同的子任務需要不同程度的認知投入——一個規劃步驟可能需要深度推理,而一個工具呼叫步驟則需要速度。
Nemotron 3 Ultra 的主要目的並非在創造基準記錄。它在於建立企業 AI 代理人的預設基礎設施。透過開源一款在輝達自家硬體上運行最快的前沿規模模型,建構一個簡化部署的開源代理人工具包,並集結一個致力於該技術堆疊的 AI 實驗室與企業軟體供應商聯盟,輝達正在進行一場與當年 CUDA 相同的豪賭:掌握了開發者體驗,最終就能掌握市場。
該模型在技術上帶來了顯著的進步——尤其是在吞吐量和上下文長度方面——使其確實適合企業開始部署的代理工作負載。但這項策略同樣著重在鎖定這些工作負載的推理基礎設施。對於 2026 年中正在評估代理平台的企業來說,輝達的技術堆疊現在是可取得的、最完整的開源選項。
Comments
0 comments