Абсолютное лидерство NVIDIA: платформа Blackwell стала единственной, представленной во всех 7 тестах MLPerf Training v6.0, показав лучшее время и максимальную производительность на ускоритель [3]. Дебют тяжелых MoE моделей: консорциум MLCommons добавил тесты на предобучение гигантских Mixture of Experts архитектур —...

Create a landscape editorial hero image for this Studio Global article: What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell pla. Article summary: ## MLPerf Training v6.0 Key Highlights. Topic tags: general, documentation, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "Home » News » NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. # NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. NVIDIA has publish" source context "NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform - StorageReview.com" Reference image 2: visual subject "# MLPerf Inference v6.0 Results Explained: GPU Performance Rankings for AI Workloads (2026). MLPerf Inference v6.0 results dropped April 1, 2026, and
Консорциум MLCommons опубликовал результаты нового раунда отраслевых тестов MLPerf Training v6.0. Главным ньюсмейкером стала компания NVIDIA, чья новейшая платформа Blackwell одержала безоговорочную победу, выиграв все семь заявленных бенчмарков как по скорости обучения в масштабе кластера, так и по удельной производительности на один ускоритель .
Ключевой интригой раунда стало появление двух принципиально новых задач для предобучения архитектур MoE (Mixture-of-Experts). Теперь участники должны были справиться с моделями, где задействованы не все параметры сразу, а лишь небольшая так называемая «активная» часть.
NVIDIA стала единственной компанией, предоставившей результаты по обеим моделям. Секрет успеха кроется в системе GB300 NVL72, объединяющей 72 суперчипа NVIDIA Blackwell Ultra в единый домен с помощью высокоскоростного интерконнекта NVLink, а также в глубоких программных оптимизациях — кастомных CUDA-графах, продвинутой маршрутизации экспертов и использовании низкоуровневого языка CuTe .
Настоящую сенсацию произвел облачный AI-провайдер CoreWeave, установивший рекорд скорости на самом тяжелом задании. Команда обучила DeepSeek-V3 671B всего за 2.02 минуты. Это стало возможным благодаря развертыванию кластера из 8 192 GPU NVIDIA GB300 NVL72 (2 048 узлов) — крупнейшей конфигурации нового поколения, заявленной в этом раунде .
Важно подчеркнуть, что обучение проходило не в лабораторных условиях, а на стандартной производственной облачной платформе CoreWeave, доступной клиентам. Такой результат был достигнут за счет комплексной инженерной работы: от тонкой настройки сетевого взаимодействия и системы оркестрации до высокопроизводительных уровней хранения данных .
Новое поколение ускорителей Blackwell Ultra обеспечило значимый отрыв от предшественников. По данным NVIDIA, в задачах инференса система GB300 NVL72 выдает до 2.77 раз больше токенов в секунду, чем GB200 NVL72 . Что касается обучения, то при одинаковом масштабе кластера прирост производительности достигает 1.6x
.
Ключ к такому скачку — не только «железо», но и софт. За три месяца работы над оптимизациями для DeepSeek-V3 инженеры NVIDIA увеличили пропускную способность обучения на идентичном оборудовании в 1.3 раза, внедрив полные итерационные CUDA-графы и продвинутые техники слияния операций .
Раунд MLPerf Training v6.0 продемонстрировал не только мощь одного вендора, но и расширение рынка ускорителей ИИ. В тестах приняли участие 24 организации, представившие 95 различных систем на 13 типах аппаратных ускорителей .
Особого внимания заслуживают результаты компании AMD. Ее ускорители Instinct MI355X с новым форматом вычислений MXFP4 показали конкурентную производительность в сравнении с NVIDIA B200: отставание составило около 5% в задаче точной настройки Llama 2-70B и 6% в предобучении Llama 3.1-8B .
Для работы с «взрывным» сетевым трафиком, характерным для MoE-моделей (all-to-all communication), партнеры NVIDIA масштабировали кластеры до тысяч ускорителей, используя фабрику Spectrum-X Ethernet. Технологии адаптивной маршрутизации и контроля перегрузок позволили удержать пропускную способность сети на уровне, близком к теоретическому пределу .
В итоге абсолютные рекорды были зафиксированы по всем категориям. Для наглядности приведем лучшее время обучения NVIDIA на других ключевых задачах раунда :
Итоги MLPerf Training v6.0 закрепляют тренд на индустриализацию обучения сверхбольших и разреженных моделей, где на первый план выходит не только пиковая производительность чипа, но и синергия аппаратных платформ, инженерных оптимизаций и масштабируемой сетевой инфраструктуры.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Абсолютное лидерство NVIDIA: платформа Blackwell стала единственной, представленной во всех 7 тестах MLPerf Training v6.0, показав лучшее время и максимальную производительность на ускоритель [3].
Абсолютное лидерство NVIDIA: платформа Blackwell стала единственной, представленной во всех 7 тестах MLPerf Training v6.0, показав лучшее время и максимальную производительность на ускоритель [3]. Дебют тяжелых MoE моделей: консорциум MLCommons добавил тесты на предобучение гигантских Mixture of Experts архитектур — DeepSeek V3 (671 млрд параметров) и GPT OSS 20B [3][10].
Рекорд CoreWeave: модель DeepSeek V3 с 671 млрд параметров была обучена в производственном облаке всего за 2.02 минуты на кластере из 8 192 GPU GB300 NVL72 — это крупнейшая конфигурация в раунде [8][26].
Loading comments...
Comments
0 comments