RespuestasPublicadohace 2 semanasLast edited hace 2 semanas21 fuentes

NVIDIA y CoreWeave destrozan récords en MLPerf Training v6.0: DeepSeek-V3 entrenado en apenas 2 minutos

NVIDIA arrasa: victoria en los 7 benchmarks de entrenamiento, logrando el mejor tiempo a escala y el mayor rendimiento por acelerador [3]. Debut de los modelos MoE (mixture of experts): MLPerf estrena pruebas con DeepSeek V3 (671B parámetros) y GPT OSS 20B para reflejar las arquitecturas de IA más avanzadas [3][10].

Buscar y verificar hechos con Studio Global AI Explora más páginas en tendencia

509K0

NVIDIA Blackwell Ultra GPUs powering record-breaking MLPerf Training v6.0 results for massive AI models. — What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell plaNVIDIA's Blackwell platform set new performance records across all MLPerf Training v6.0 benchmarks, driven by the powerful GB300 NVL72 system.
Prompt de IA
Create a landscape editorial hero image for this Studio Global article: What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell pla. Article summary: ## MLPerf Training v6.0 Key Highlights. Topic tags: general, documentation, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "Home » News » NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. # NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. NVIDIA has publish" source context "NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform - StorageReview.com" Reference image 2: visual subject "# MLPerf Inference v6.0 Results Explained: GPU Performance Rankings for AI Workloads (2026). MLPerf Inference v6.0 results dropped April 1, 2026, and
openai.com

MLPerf Training v6.0: Un nuevo techo para la IA generativa

La competición de referencia en el mundo de la inteligencia artificial, MLPerf Training, ha publicado los resultados de su ronda v6.0, y el veredicto es contundente. NVIDIA ha conseguido un pleno histórico al ganar en todos y cada uno de los siete benchmarks de entrenamiento. La compañía no solo logró el tiempo de entrenamiento más rápido a gran escala, sino también el mayor rendimiento por acelerador en cada prueba, siendo además la única plataforma que participó en todos los escenarios .

La gran novedad: los modelos MoE y DeepSeek-V3 entran en escena

La edición de este año marca un punto de inflexión al introducir cargas de trabajo basadas en la arquitectura de mezcla de expertos (MoE, por sus siglas en inglés). MLCommons, el consorcio responsable, ha añadido dos nuevos y exigentes benchmarks de preentrenamiento:

DeepSeek-V3: Un gigante de 671 mil millones de parámetros totales, de los cuales solo se activan 37 mil millones por cada token procesado .
GPT-OSS-20B: Una versión más compacta de modelo MoE .

NVIDIA fue la única plataforma que presentó resultados en ambos modelos, utilizando para ello su sistema más potente, el GB300 NVL72, optimizado mediante pilas de software a medida y técnicas avanzadas de enrutamiento de expertos .

El modelo DeepSeek-V3, cuyo informe técnico original ya causó sensación por su eficiencia de costes, utiliza innovaciones como la Atención Latente Multi-Cabeza (MLA), una segmentación de expertos de grano fino (con 160 expertos enrutados), predicción de múltiples tokens y un balanceo de carga sin funciones de pérdida auxiliares .

CoreWeave firma un récord estratosférico con DeepSeek-V3

Uno de los hitos más sonados lo protagonizó la compañía de nube CoreWeave. La empresa logró entrenar el modelo DeepSeek-V3 671B en tan solo 2.02 minutos utilizando una infraestructura de producción real, no un laboratorio de pruebas .

Para ponerlo en perspectiva:

Se empleó un clúster de 8,192 GPU NVIDIA GB300 NVL72, la mayor configuración presentada en esta ronda.
El récord se consiguió sobre la misma infraestructura en la nube que CoreWeave ofrece a sus clientes, demostrando la madurez de su plataforma.
La hazaña fue posible gracias a optimizaciones en todos los niveles de la pila, desde la red y la orquestación hasta el almacenamiento .

GB300 NVL72 vs. GB200 NVL72: El salto generacional de Blackwell Ultra

Los resultados de esta ronda permiten cuantificar la mejora entre las generaciones de GPU de NVIDIA:

Característica	NVIDIA GB300 NVL72 (Blackwell Ultra)	NVIDIA GB200 NVL72 (Blackwell)
Rendimiento en inferencia	Hasta 2.77x más tokens por segundo	Línea base
Rendimiento en entrenamiento	Hasta 1.6x más rápido a la misma escala	Línea base
Clave de la mejora	Mayor presupuesto de memoria y energía; permite más localidad de modelo	-

Además de las mejoras brutas del hardware, el software es un factor diferencial. El equipo de NVIDIA logró mejorar el rendimiento del entrenamiento de DeepSeek-V3 en 1.3 veces en solo tres meses sobre el mismo hardware, gracias a innovaciones como los grafos CUDA de iteración completa y las fusiones con el DSL CuTe .

Más allá de NVIDIA: diversidad técnica y participación récord

Aunque NVIDIA dominó, la competición muestra un ecosistema vibrante y diverso:

24 organizaciones presentaron resultados, desde fabricantes de chips hasta proveedores de nube como Azure, Google y Oracle.
Se evaluaron 95 sistemas distintos con 13 aceleradores de hardware diferentes .
AMD, con su GPU Instinct MI355X, demostró un rendimiento altamente competitivo usando precisión MXFP4, quedando a solo un 5% del rendimiento de la NVIDIA B200 en el ajuste fino de Llama 2-70B y a un 6% en el preentrenamiento de Llama 3.1-8B .

Comunicación a escala planetaria: la red es el secreto

Para mover modelos con 671 mil millones de parámetros, la comunicación entre GPU es tan importante como el cálculo.

Los socios de NVIDIA escalaron configuraciones de hasta 8,192 GPU interconectadas con Spectrum-X Ethernet. Esta tecnología utiliza enrutamiento adaptativo y control de congestión para mantener un ancho de banda casi teórico, crucial para los patrones de comunicación a ráfagas típicos de los modelos MoE .

El resto de récords: un dominio sin paliativos

Los tiempos de entrenamiento conseguidos por la plataforma NVIDIA en otros benchmarks de esta ronda también son de récord :

Benchmark (Carga de trabajo)	Tiempo de entrenamiento
Preentrenamiento LLM (Llama 3.1 8B)	5.2 minutos
Ajuste fino LLM (Llama 2 70B LoRA)	0.40 minutos
Generación de imágenes (FLUX.1)	12.5 minutos
Sistema de recomendación (DLRM-DCNv2)	0.71 minutos
Red neuronal de grafos (R-GAT)	0.84 minutos
Detección de objetos (RetinaNet)	1.4 minutos

En conjunto, la ronda v6.0 no solo corona a un ganador, sino que redefine lo que es posible en el entrenamiento de la IA generativa más avanzada, acortando los tiempos de desarrollo de meses a minutos.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Buscar y verificar hechos con Studio Global AI

La gente también pregunta

¿Cuál es la respuesta corta a "NVIDIA y CoreWeave destrozan récords en MLPerf Training v6.0: DeepSeek-V3 entrenado en apenas 2 minutos"?

NVIDIA arrasa: victoria en los 7 benchmarks de entrenamiento, logrando el mejor tiempo a escala y el mayor rendimiento por acelerador [3].

¿Cuáles son los puntos clave a validar primero?

¿Qué debo hacer a continuación en la práctica?

El salto a Blackwell Ultra: las nuevas GPU GB300 NVL72 ofrecen un rendimiento en entrenamiento hasta 1.6 veces superior al de la generación anterior GB200 NVL72 [9].

Fuentes

Comments

0 comments

Loading comments...

← Back to Trending