Nvidia 喺架構上嘅選擇,係佢同傳統大型語言模型分野最大嘅地方。佢唔用傳統嘅密集式 Transformer,而係採用咗一種叫 Hybrid Latent Mixture-of-Experts(LatentMoE) 嘅架構,將 Mamba-2 狀態空間模型層同混合專家層交錯咁疊埋一齊,再加少少標準嘅 Attention 層 。
呢種設計,係直接針對長時間 Agent 任務嘅兩大樽頸:記憶體消耗同推理速度。狀態空間模型好似 Mamba-2 咁,佢嘅運算複雜度同序列長度係線性關係,而唔係好似 Attention 機制咁係平方關係。再配合 MoE 路由(即係每個 Token 只係激活一小部分參數),Nvidia 就成功做到一個保持到前沿水平準確度,但推理速度遠快過同級對手嘅模型 。
架構仲加入咗 Multi-Token Prediction(MTP,多 Token 預測) 技術,令模型生成緊嗰陣可以同時預測未來幾個 Token。呢個技術等於係模型本身就內置咗「推測解碼」嘅加速功能,唔使另外加個草稿模型就可以大幅提高吞吐量 。
仲有個 100 萬 Token 嘅超長上下文窗口,呢個亦係精心計算過嘅決定。喺 Agent 嘅工作流程入面,模型要記住幾十甚至幾百次工具調用嘅狀態、要喺記憶入面保持住長時間嘅規劃歷史、仲要對住成個大型程式碼庫或者文件庫去推理。如果上下文窗口太細,Agent 就要斬頭斬尾或者做總結,過程中就會流失關鍵資訊。呢個 100 萬 Token 嘅限制,就可以畀成個 Agent 嘅狀態、紀錄同計劃喺長時間嘅任務入面完整保存落嚟 。
喺 Artificial Analysis 智能指數(一個綜合評核模型多方面能力嘅基準)入面,Nemotron 3 Ultra 攞到 48 分,令佢成為美國開發者入面最高排名嘅開源權重模型 。呢個分數高過 Llama 3.1 405B 同 Mixtral 8x22B,雖然整體能力仲係排喺中國嘅頂尖開源模型後面
。
不過,更加關鍵嘅數字可能係「吞吐量」。根據 Nvidia 嘅技術報告,同其他最先進嘅開源大型語言模型比起嚟,Nemotron 3 Ultra 嘅推理吞吐量最高可以去到 6 倍,同時繼續保持同等嘅準確度 。如果喺 Nvidia Blackwell 平台度用 NVFP4 量化格式嚟行,推理速度可以快成 5 倍,令複雜 Agent 任務嘅總體成本降低高達 30%
。
技術報告入面嘅具體吞吐量對比顯示,喺處理 8,000 Token 輸入同 64,000 Token 輸出嘅設定下,Nemotron 3 Ultra 嘅吞吐量係 GLM-5.1-754B 嘅 5.9 倍,係 Kimi-K2.6-1T 嘅 4.8 倍,係 Qwen-3.5-397B 嘅 1.6 倍 。
咁咪即係全部贏晒?又唔係。喺 MMLU、HumanEval、GSM8K 呢啲獨立基準測試入面,佢係砌低咗 Llama 3.1 405B 同 Mixtral 8x22B,但來源數據顯示,喺某啲指標上面同 GPT-4o 呢啲模型比,結果都仲係互有勝負 。份技術報告自己都係咁樣定位個優勢:與其話佢係純粹嘅準確度冠軍,不如話係「推理吞吐量對準確度前沿」嘅最強代表
。
Nvidia 已經喺 Hugging Face 度放出咗模型權重,有兩種格式:一種係針對 Blackwell 硬件做咗最高速度優化嘅 NVFP4 量化版(NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4),另一種係畀需要最高精度環境用嘅完整 BF16 版 。權重係根據 Linux Foundation 嘅 OpenMDW 許可證開放嘅,Nvidia 仲應承會公開訓練配方同數據集(前提係攞到授權)
。
不過,硬件門檻真係高得好緊要。最低部署要求係 4 張 GB200、B200、GB300、B300,或者 8 張 H100 GPU 。對於想喺本地或者輕啲嘅基礎設施上試玩嘅開發者嚟講,可以透過 Unsloth 攞到 GGUF 量化版本,其中動態 1-bit 版本大約要 189GB 嘅磁碟空間
。
Nemotron 3 Ultra 並唔係一個孤零零嘅產品發布。佢係 Nvidia 一個大好多嘅戰略入面,最搶眼嘅一部分。Nvidia 嘅目標,係想成為企業 AI Agent 嘅默認基建供應商。呢個攻勢可以拆做三大範疇。
喺 2026 年 3 月嘅 GTC 上面宣布嘅「Nemotron 聯盟」,係一個由 AI 實驗室同公司組成嘅協作組織,大家一齊喺 Nvidia 嘅 DGX Cloud 基建上建立前沿嘅開源模型。成員包括 Cursor、Mistral AI、Perplexity 同其他幾十間公司。到咗 Computex,Nvidia 再宣布 H Company、NAVER Cloud、Nous Research 同 Prime Intellect 都加入咗做新成員 。
聯盟嘅目的係匯聚專業知識、數據同運算力去推動開放嘅前沿模型,特別側重喺兩瓣:為呢啲模型建立最好嘅 Agent 框架,同埋提供全面嘅 Agent 行為可觀測性 。聯盟夥伴可以得到新 Nemotron 模型嘅早期訪問權限,同埋同 Nvidia Agent 基建嘅優先整合
。
同一個 GTC 活動入面,Nvidia 仲發布咗叫做 Nvidia Agent Toolkit 嘅開源工具包,用嚟將部署自主 Agent 嘅複雜性壓縮到一條由 Nvidia 優化嘅管道入面。呢個工具包包括 NemoClaw(Nvidia 將 OpenClaw 自主 Agent 執行環境加固之後嘅版本)、安全執行環境 OpenShell、預載咗優化同檢索呢啲 Agent 技能嘅 CUDA-X 庫,仲有就係成個 Nemotron 模型家族本身 。
工具包嘅架構有個重點:佢係「框架無關(Framework-Agnostic)」嘅,即係話企業可以用 LangChain、CrewAI、AutoGen 或者自己嘅協調層都得。Nvidia 嘅盤算係,只要將個工具包做到真係有用同開源,咁當企業大規模部署 Agent 艦隊嘅時候,佢哋底層自然就會默認行返 Nvidia 嘅 GPU 。
超過 150 間創始合作夥伴已經應承喺 Nvidia 基建上建立 AI Agent,包括 CrowdStrike、 Palantir、Adobe、Salesforce、SAP、ServiceNow 同 Siemens 呢啲大型軟件平台 。2026 年 3 月,LangChain(佢哋嘅框架下載量已經突破 10 億次)宣布直接喺 Nvidia 嘅 Nemotron 模型同 Agent Toolkit 上面建立一個全面嘅企業級 Agent AI 平台,而 LangChain 自己都加入咗 Nemotron 聯盟
。
呢啲整合嘅深度先係重點。將 LangChain 嘅 LangSmith Agent 工程平台同 Nvidia 嘅基礎設施結合,就創造出一條由開發、部署、監控到審計嘅完整端到端管道。對於已經投入咗是但一邊供應商嘅企業嚟講,呢個合作可以大幅減少建立生產級 Agent 系統嘅障礙 。
Nvidia 明確咁將 Nemotron 3 Ultra 定位做「最智能嘅美國開源權重模型」,而呢種講法好有戰略意味。開源權重領域近幾個月,係俾嚟自 DeepSeek、Qwen 等嘅中國模型主導咗。Nemotron 3 Ultra 就係 Nvidia 嘅反擊——未必係喺純粹嘅基準分數上打敗中國模型,而係針對「長時間運行嘅 Agent」呢個特定工作負載,以及企業客戶實際上會用嘅「Blackwell GPU 配 NVFP4」呢個特定硬體組合,去做最佳化 。
呢個模型支援「推理時間推理預算控制」,即係用家可以根據任務性質,喺「速度」同「推理深度」之間做取捨 。呢種可配置性對 Agent 系統好重要,因為唔同嘅子任務要求嘅認知努力唔同——規劃步驟可能要深入推理,但工具調用嗰步就要講求速度。
Nemotron 3 Ultra 嘅重點,從來都唔係要破咩基準紀錄,而係想確立企業 AI Agent 嘅預設基礎設施。透過開源一個喺自家硬件上行得最快嘅前沿級模型、開發一個簡化部署流程嘅開源 Agent 工具包、再拉攏一班 AI 實驗室同企業軟件商組成聯盟去撐呢個技術堆疊,Nvidia 今次嘅策略同當年佢哋喺 CUDA 做嘅一樣:只要掌握咗開發者體驗,遲早會掌握埋成個市場。
呢個模型喺吞吐量同上下文長度方面,的確帶嚟咗有意義嘅技術突破,令佢真係適合處理企業開始要部署嘅 Agent 工作負載。但成個策略更加係想鎖定呢啲工作負載嘅推理基建市場。對於喺 2026 年中評估緊 Agent 平台嘅企業嚟講,Nvidia 呢一套嘢毫無疑問係而家市場上最完整嘅開源選擇。
Comments
0 comments