Những lựa chọn về kiến trúc chính là nơi Nvidia tạo ra sự khác biệt rõ rệt nhất so với thiết kế mô hình ngôn ngữ lớn thông thường. Thay vì một Transformer dày đặc tiêu chuẩn, mô hình sử dụng kiến trúc lai Latent Mixture-of-Experts (LatentMoE), kết hợp đan xen các lớp mô hình không gian trạng thái Mamba-2 với các lớp MoE và một số ít các lớp Attention tiêu chuẩn .
Thiết kế này giải quyết trực tiếp hai nút thắt lớn nhất trong các tác vụ tác nhân dài hạn: tiêu thụ bộ nhớ và tốc độ suy luận. Các mô hình không gian trạng thái như Mamba-2 mở rộng tuyến tính với độ dài chuỗi, thay vì theo cấp số nhân như các cơ chế attention. Bằng cách kết hợp chúng với định tuyến MoE—nơi chỉ một phần tổng số tham số được kích hoạt cho mỗi token—Nvidia đã tạo ra một mô hình duy trì độ chính xác hàng đầu trong khi chạy nhanh hơn đáng kể so với các đối thủ có trí thông minh tương đương .
Kiến trúc này cũng bao gồm Dự đoán Đa Token (Multi-Token Prediction - MTP), một kỹ thuật mà mô hình dự đoán đồng thời nhiều token trong tương lai trong quá trình sinh văn bản. Kỹ thuật này hoạt động như một hình thức suy luận suy đoán (speculative decoding) tự nhiên, giúp tăng thêm thông lượng mà không cần một mô hình dự thảo riêng biệt .
Cửa sổ ngữ cảnh 1 triệu token là một lựa chọn có chủ đích khác. Trong các quy trình làm việc của tác nhân, mô hình phải duy trì trạng thái qua hàng tá, thậm chí hàng trăm lần gọi công cụ, lưu trữ các lịch sử lập kế hoạch dài trong bộ nhớ và suy luận trên các cơ sở mã nguồn hoặc bộ sưu tập tài liệu lớn. Một cửa sổ ngữ cảnh nhỏ hơn buộc các tác nhân phải cắt bớt hoặc tóm tắt, làm mất đi thông tin quan trọng. Giới hạn 1 triệu token cho phép duy trì toàn bộ trạng thái, nhật ký và kế hoạch của tác nhân trong suốt các phiên làm việc kéo dài .
Trên Chỉ số Trí tuệ Nhân tạo của Artificial Analysis—một bài kiểm tra tổng hợp đo lường khả năng của mô hình trên nhiều khía cạnh—Nemotron 3 Ultra đạt điểm số 48, trở thành mô hình trọng số mở được xếp hạng cao nhất từ bất kỳ nhà phát triển Mỹ nào . Điểm số này đặt nó lên trên Llama 3.1 405B và Mixtral 8x22B, mặc dù vẫn đứng sau các mô hình mở hàng đầu của Trung Quốc về mặt tổng thể
.
Nhưng con số có ý nghĩa hơn có lẽ là thông lượng. Theo báo cáo kỹ thuật của Nvidia, Nemotron 3 Ultra đạt được thông lượng suy luận cao hơn tới khoảng 6 lần so với các mô hình ngôn ngữ lớn mở hàng đầu khác trong khi vẫn duy trì độ chính xác tương đương . Trên định dạng lượng tử hóa NVFP4 chạy trên nền tảng Blackwell của Nvidia, mô hình đạt tốc độ suy luận nhanh hơn gấp 5 lần và giảm tới 30% tổng chi phí cho các tác vụ tác nhân phức tạp
.
Các so sánh cụ thể về thông lượng từ báo cáo kỹ thuật cho thấy Nemotron 3 Ultra đạt thông lượng cao hơn gấp 5,9 lần so với GLM-5.1-754B, gấp 4,8 lần so với Kimi-K2.6-1T và gấp 1,6 lần so với Qwen-3.5-397B, tất cả đều trong cùng một thiết lập đầu vào 8.000 token và đầu ra 64.000 token .
Tuy nhiên, câu chuyện về điểm chuẩn không hoàn toàn là sự thống trị. Trên các bài kiểm tra riêng lẻ như MMLU, HumanEval và GSM8K, mô hình vượt trội hơn Llama 3.1 405B và Mixtral 8x22B, nhưng dữ liệu nguồn cho thấy kết quả trái chiều khi so sánh với các mô hình như GPT-4o trên một số chỉ số nhất định . Bản thân báo cáo kỹ thuật định hình lợi thế của mô hình là nằm ở biên giới thông lượng-suy-luận-so-với-độ-chính-xác, chứ không chỉ đơn thuần dẫn đầu về độ chính xác thô
.
Nvidia đã phát hành trọng số mô hình trên Hugging Face dưới hai định dạng: phiên bản lượng tử hóa NVFP4 (NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4) cho tốc độ tối đa trên phần cứng Blackwell, và phiên bản BF16 đầy đủ cho các môi trường cần độ chính xác cao nhất . Trọng số này được mở theo giấy phép OpenMDW của Linux Foundation, và Nvidia đã cam kết phát hành các công thức huấn luyện và bộ dữ liệu khi được cấp phép
.
Tuy nhiên, yêu cầu về phần cứng là rất cao. Cấu hình tối thiểu để triển khai là 4× GB200, 4× B200, 4× GB300, 4× B300, hoặc 8× H100 GPU . Đối với các nhà phát triển muốn thử nghiệm cục bộ hoặc trên cơ sở hạ tầng nhẹ hơn, các phiên bản lượng tử hóa GGUF có sẵn thông qua Unsloth, với tùy chọn động 1-bit chiếm khoảng 189GB dung lượng ổ đĩa
.
Việc triển khai trên đám mây được đơn giản hóa nhờ tính khả dụng ngay từ ngày đầu tiên trên Amazon SageMaker JumpStart, cung cấp khả năng triển khai một cú nhấp chuột cho các doanh nghiệp đã vận hành trên hạ tầng AWS .
Nemotron 3 Ultra không phải là một thông báo sản phẩm đơn lẻ. Nó là phần dễ thấy nhất của một cú hích chiến lược lớn hơn nhiều của Nvidia nhằm trở thành nhà cung cấp hạ tầng mặc định cho các tác nhân AI trong doanh nghiệp. Các thành phần của cú hích này rơi vào ba nhóm chính.
Được công bố tại GTC 2026 vào tháng 3, Liên minh Nemotron là một nhóm hợp tác gồm các phòng thí nghiệm AI và công ty xây dựng các mô hình mở tiên phong trên hạ tầng DGX Cloud của Nvidia. Các thành viên bao gồm Cursor, Mistral AI, Perplexity và hàng chục cái tên khác. Tại Computex, Nvidia đã thêm H Company, NAVER Cloud, Nous Research và Prime Intellect làm thành viên mới .
Mục đích của liên minh là tập hợp chuyên môn, dữ liệu và sức mạnh tính toán để thúc đẩy các mô hình mở, với trọng tâm cụ thể là xây dựng "bộ khai thác" (harness) tác nhân tốt nhất cho các mô hình này và cung cấp khả năng quan sát toàn diện vào hành vi của tác nhân . Các đối tác trong liên minh được tiếp cận sớm các bản phát hành mô hình Nemotron mới trước khi công bố rộng rãi và được tích hợp ưu tiên với hạ tầng tác nhân của Nvidia
.
Tại sự kiện GTC này, Nvidia cũng đã công bố Nvidia Agent Toolkit, một nền tảng mã nguồn mở được thiết kế để đơn giản hóa sự phức tạp của việc triển khai các tác nhân tự hành thành một quy trình duy nhất, được tối ưu hóa cho Nvidia. Bộ công cụ này bao gồm NemoClaw (phiên bản cứng hóa của Nvidia dành cho runtime tác nhân tự hành OpenClaw), OpenShell dành cho việc thực thi an toàn, các thư viện CUDA-X được tải sẵn các kỹ năng tác nhân như tối ưu hóa và truy xuất, và chính dòng mô hình Nemotron .
Điểm đáng chú ý trong kiến trúc của bộ công cụ này là nó không phụ thuộc vào bất kỳ framework nào, nghĩa là các doanh nghiệp có thể sử dụng nó với LangChain, CrewAI, AutoGen hoặc lớp điều phối riêng của họ. Ván cược ở đây là bằng cách làm cho nền tảng này thực sự hữu ích và là mã nguồn mở, Nvidia đảm bảo rằng khi các doanh nghiệp triển khai đội ngũ tác nhân trên quy mô lớn, họ sẽ mặc định sử dụng GPU của Nvidia .
Hơn 150 đối tác sáng lập đã cam kết xây dựng các tác nhân AI trên hạ tầng của Nvidia, bao gồm các nền tảng phần mềm lớn như CrowdStrike, Palantir, Adobe, Salesforce, SAP, ServiceNow và Siemens . Vào tháng 3 năm 2026, LangChain—có các framework đã vượt qua 1 tỷ lượt tải xuống—đã công bố một nền tảng AI tác nhân doanh nghiệp toàn diện được xây dựng trực tiếp trên các mô hình Nemotron và Agent Toolkit của Nvidia, và chính LangChain cũng gia nhập Liên minh Nemotron
.
Mức độ sâu sắc của các tích hợp này rất quan trọng. Nền tảng kỹ thuật tác nhân LangSmith của LangChain kết hợp với hạ tầng của Nvidia tạo ra một quy trình đầu cuối bao gồm phát triển, triển khai, giám sát và kiểm toán. Đối với các doanh nghiệp đã cam kết với một trong hai nhà cung cấp, sự hợp tác này giảm thiểu rào cản trong việc xây dựng các hệ thống tác nhân trong sản xuất .
Nvidia định vị Nemotron 3 Ultra một cách rõ ràng là mô hình trọng số mở thông minh nhất của Mỹ, và cách định hình này có ý nghĩa quan trọng. Biên giới của các mô hình trọng số mở gần đây bị chi phối bởi các mô hình Trung Quốc từ DeepSeek, Qwen và những cái tên khác. Nemotron 3 Ultra là câu trả lời của Nvidia—không hẳn bằng cách đánh bại các mô hình Trung Quốc về điểm số chuẩn thô, mà bằng cách tối ưu hóa cho khối lượng công việc cụ thể (tác nhân hoạt động dài hạn) và phần cứng cụ thể (GPU Blackwell với NVFP4) mà khách hàng doanh nghiệp sẽ thực sự sử dụng .
Mô hình hỗ trợ kiểm soát ngân sách suy luận theo thời gian thực, nghĩa là người dùng có thể đánh đổi giữa tốc độ và độ sâu của suy luận tùy thuộc vào từng tác vụ . Khả năng cấu hình này rất quan trọng đối với các hệ thống tác nhân, nơi các tác vụ phụ khác nhau đòi hỏi mức độ nỗ lực nhận thức khác nhau—một bước lập kế hoạch có thể cần suy luận sâu, trong khi bước gọi công cụ cần tốc độ.
Hỗ trợ ngôn ngữ bao gồm tiếng Anh, Pháp, Tây Ban Nha, Ý, Đức, Nhật, Hàn, Bồ Đào Nha và Trung Quốc, khiến nó trở nên khả thi cho việc triển khai tại các doanh nghiệp đa quốc gia .
Nemotron 3 Ultra không chủ yếu nhằm vào việc thiết lập các kỷ lục về điểm chuẩn. Nó là về việc thiết lập cơ sở hạ tầng mặc định cho các tác nhân AI trong doanh nghiệp. Bằng cách mở mã nguồn một mô hình quy mô tiên phong chạy nhanh nhất trên phần cứng của chính Nvidia, xây dựng một bộ công cụ tác nhân mã nguồn mở giúp đơn giản hóa việc triển khai và tập hợp một liên minh các phòng thí nghiệm AI và nhà cung cấp phần mềm doanh nghiệp cam kết với nền tảng đó, Nvidia đang thực hiện cùng một canh bạc mà họ đã làm với CUDA: đó là nắm quyền kiểm soát trải nghiệm của nhà phát triển cuối cùng sẽ dẫn đến việc kiểm soát thị trường.
Mô hình này mang lại những tiến bộ kỹ thuật có ý nghĩa—đặc biệt là về thông lượng và độ dài ngữ cảnh—khiến nó thực sự phù hợp với các khối lượng công việc tác nhân mà các doanh nghiệp đang bắt đầu triển khai. Nhưng chiến lược này cũng đồng thời là về việc khóa chặt hạ tầng suy luận cho những khối lượng công việc đó. Đối với các doanh nghiệp đang đánh giá các nền tảng tác nhân vào giữa năm 2026, nền tảng của Nvidia hiện là lựa chọn mã nguồn mở hoàn chỉnh nhất hiện có.
Comments
0 comments