Las decisiones arquitectónicas de Nemotron 3 Ultra marcan la mayor divergencia de Nvidia con el diseño estándar de modelos de lenguaje. En lugar de un Transformer denso convencional, el modelo utiliza una arquitectura híbrida Latent Mixture-of-Experts (LatentMoE) que intercala capas de modelo de espacio de estados Mamba-2 con capas de Mezcla de Expertos y un pequeño número de capas de Atención estándar .
Este diseño aborda directamente los dos mayores cuellos de botella en tareas de agentes de larga duración: el consumo de memoria y la velocidad de inferencia. Los modelos de espacio de estados como Mamba-2 escalan linealmente con la longitud de la secuencia, en lugar de cuadráticamente como los mecanismos de atención. Al combinarlos con el enrutamiento MoE —donde solo se activa una fracción de los parámetros totales para cada token—, Nvidia logra un modelo que mantiene una precisión de vanguardia mientras se ejecuta sustancialmente más rápido que competidores de inteligencia comparable .
La arquitectura también incorpora la Predicción de Múltiples Tokens (MTP), una técnica en la que el modelo predice varios tokens futuros simultáneamente durante la generación. Esto funciona como una forma de decodificación especulativa nativa, aumentando aún más el rendimiento sin necesidad de un modelo de borrador separado .
La ventana de contexto de 1 millón de tokens es otra elección deliberada. En flujos de trabajo de agentes, el modelo debe mantener el estado a lo largo de docenas o cientos de llamadas a herramientas, conservar largos historiales de planificación en memoria y razonar sobre grandes bases de código o colecciones de documentos. Un contexto más pequeño obliga a los agentes a truncar o resumir, perdiendo información crítica. El límite de 1 millón de tokens permite que el estado completo del agente, los registros y los planes persistan a través de sesiones prolongadas .
En el Índice de Inteligencia de Artificial Analysis —un punto de referencia compuesto que mide las capacidades del modelo en múltiples dimensiones—, Nemotron 3 Ultra obtiene una puntuación de 48, lo que lo convierte en el modelo de pesos abiertos mejor clasificado de cualquier desarrollador estadounidense . La puntuación lo sitúa por delante de Llama 3.1 405B y Mixtral 8x22B, aunque permanece por detrás de los mejores modelos abiertos chinos en capacidad general
.
Pero la cifra más significativa podría ser el rendimiento. Según el informe técnico de Nvidia, Nemotron 3 Ultra logra hasta aproximadamente 6 veces más rendimiento de inferencia en comparación con otros grandes modelos de lenguaje abiertos de última generación, manteniendo una precisión similar . En el formato cuantizado NVFP4 ejecutándose en la plataforma Blackwell de Nvidia, el modelo alcanza una inferencia 5 veces más rápida y reduce el coste total de tareas complejas de agentes hasta en un 30 por ciento
.
Comparativas de rendimiento específicas del informe técnico muestran a Nemotron 3 Ultra logrando un rendimiento 5,9 veces superior al de GLM-5.1-754B, 4,8 veces superior al de Kimi-K2.6-1T, y 1,6 veces superior al de Qwen-3.5-397B, todo ello en una configuración de entrada de 8.000 tokens y salida de 64.000 tokens .
Sin embargo, la historia de los benchmarks no es de dominio absoluto. En pruebas individuales como MMLU, HumanEval y GSM8K, el modelo supera a Llama 3.1 405B y Mixtral 8x22B, pero los datos de origen muestran resultados mixtos frente a modelos como GPT-4o en ciertas métricas . El propio informe técnico enmarca la ventaja en la frontera de rendimiento de inferencia frente a precisión, más que en el liderazgo en precisión bruta por sí solo
.
Nvidia publicó los pesos del modelo en Hugging Face en dos formatos: la versión cuantizada NVFP4 (NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4) para máxima velocidad en hardware Blackwell, y una versión completa en BF16 para entornos que necesiten la mayor precisión . Los pesos son abiertos bajo la licencia OpenMDW de la Fundación Linux, y Nvidia se ha comprometido a publicar las recetas de entrenamiento y los conjuntos de datos, donde tengan licencia para ello
.
Los requisitos de hardware, no obstante, son elevados. La configuración mínima para el despliegue es de 4 GPUs GB200, 4 B200, 4 GB300, 4 B300 u 8 H100 . Para los desarrolladores que quieran experimentar localmente o en infraestructuras más ligeras, hay versiones cuantizadas GGUF disponibles a través de Unsloth, con la opción dinámica de 1 bit ocupando aproximadamente 189 GB de espacio en disco
.
El despliegue en la nube se facilita mediante la disponibilidad desde el primer día en Amazon SageMaker JumpStart, lo que ofrece un despliegue con un solo clic para las empresas que ya operan en la infraestructura de AWS .
Nemotron 3 Ultra no es un anuncio de producto aislado. Es la pieza más visible de un impulso estratégico mucho mayor de Nvidia para convertirse en el proveedor de infraestructura por defecto para los agentes de IA empresariales. Los componentes de este impulso se dividen en tres categorías.
Anunciada en el GTC 2026 en marzo, la Coalición Nemotron es un grupo colaborativo de laboratorios y empresas de IA que construyen modelos abiertos de vanguardia sobre la infraestructura DGX Cloud de Nvidia. Entre sus miembros se encuentran Cursor, Mistral AI, Perplexity y docenas más. En el Computex, Nvidia sumó a H Company, NAVER Cloud, Nous Research y Prime Intellect como nuevos miembros .
El propósito de la coalición es aunar experiencia, datos y computación para avanzar en modelos abiertos de vanguardia, con un énfasis específico en construir los mejores arneses de agentes para estos modelos y proporcionar una observabilidad integral del comportamiento de los agentes . Los socios de la coalición obtienen acceso anticipado a los nuevos lanzamientos de modelos Nemotron antes de su disponibilidad pública e integración preferente con la infraestructura de agentes de Nvidia
.
En el mismo evento GTC, Nvidia presentó lo que denomina Nvidia Agent Toolkit, un conjunto de herramientas de código abierto diseñado para simplificar la complejidad del despliegue de agentes autónomos en un único flujo de trabajo optimizado para Nvidia. El conjunto de herramientas incluye NemoClaw (la versión robustecida por Nvidia del entorno de ejecución de agentes autónomos OpenClaw), OpenShell para ejecución segura, bibliotecas CUDA-X precargadas con habilidades de agente como optimización y recuperación, y la propia familia de modelos Nemotron .
La arquitectura del conjunto de herramientas destaca por ser agnóstica al framework, lo que significa que las empresas pueden usarlo con LangChain, CrewAI, AutoGen o su propia capa de orquestación. La apuesta es que, al hacer que el conjunto de herramientas sea genuinamente útil y de código abierto, Nvidia se asegura de que, a medida que las empresas desplieguen flotas de agentes a escala, recurran a las GPUs de Nvidia como base .
Más de 150 socios fundadores se han comprometido a construir agentes de IA sobre la infraestructura de Nvidia, incluyendo grandes plataformas de software como CrowdStrike, Palantir, Adobe, Salesforce, SAP, ServiceNow y Siemens . En marzo de 2026, LangChain —cuyos frameworks han superado los 1.000 millones de descargas— anunció una plataforma empresarial integral de IA agéntica construida directamente sobre los modelos Nemotron y el Agent Toolkit de Nvidia, uniéndose la propia LangChain a la Coalición Nemotron
.
La profundidad de estas integraciones es importante. La plataforma de ingeniería de agentes LangSmith de LangChain combinada con la infraestructura de Nvidia crea un flujo de trabajo integral que abarca desarrollo, despliegue, monitorización y auditoría. Para las empresas ya comprometidas con cualquiera de los proveedores, esta alianza reduce la fricción de construir sistemas de agentes en producción .
Nvidia posiciona explícitamente a Nemotron 3 Ultra como el modelo de pesos abiertos más inteligente de Estados Unidos, y el enfoque es relevante. La frontera de los pesos abiertos ha estado dominada en los últimos meses por modelos chinos de DeepSeek, Qwen y otros. Nemotron 3 Ultra es la respuesta de Nvidia, no necesariamente superando a los modelos chinos en puntuaciones brutas de referencia, sino optimizándose para la carga de trabajo específica (agentes de larga duración) y el hardware específico (GPUs Blackwell con NVFP4) que los clientes empresariales utilizarán en la práctica .
El modelo admite un control del presupuesto de razonamiento en tiempo de inferencia, lo que significa que los usuarios pueden equilibrar velocidad y profundidad de razonamiento según la tarea . Esta capacidad de configuración es importante para los sistemas de agentes donde diferentes subtareas requieren distintos niveles de esfuerzo cognitivo: un paso de planificación podría necesitar un razonamiento profundo, mientras que un paso de llamada a una herramienta necesita velocidad.
El soporte de idiomas abarca inglés, francés, español, italiano, alemán, japonés, coreano, portugués y chino, lo que lo hace viable para despliegues empresariales multinacionales .
Nemotron 3 Ultra no trata principalmente de establecer récords de benchmarks. Trata de establecer la infraestructura por defecto para los agentes de IA empresariales. Al liberar como código abierto un modelo de escala frontera que se ejecuta más rápido en el propio hardware de Nvidia, construir un conjunto de herramientas de agentes de código abierto que simplifica el despliegue, y reunir una coalición de laboratorios de IA y proveedores de software empresarial comprometidos con esa pila, Nvidia está haciendo la misma apuesta que hizo con CUDA: que controlar la experiencia del desarrollador equivale a controlar el mercado.
El modelo ofrece avances técnicos significativos —particularmente en rendimiento y longitud de contexto— que lo hacen genuinamente adecuado para las cargas de trabajo de agentes que las empresas están comenzando a desplegar. Pero la estrategia trata igualmente de asegurar la infraestructura de inferencia para esas cargas de trabajo. Para las empresas que estén evaluando plataformas de agentes a mediados de 2026, la pila de Nvidia es ahora la opción de código abierto más completa disponible.
Comments
0 comments