ОтветыОпубликовано2 недели назадLast edited 2 недели назад20 источники

MLPerf Training v6.0: как NVIDIA Blackwell и CoreWeave установили новые стандарты обучения ИИ

Абсолютное лидерство NVIDIA: платформа Blackwell стала единственной, представленной во всех 7 тестах MLPerf Training v6.0, показав лучшее время и максимальную производительность на ускоритель [3]. Дебют тяжелых MoE моделей: консорциум MLCommons добавил тесты на предобучение гигантских Mixture of Experts архитектур —...

Искать и проверять факты с Studio Global AI Смотреть больше популярных страниц

509K0

NVIDIA Blackwell Ultra GPUs powering record-breaking MLPerf Training v6.0 results for massive AI models. — What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell plaNVIDIA's Blackwell platform set new performance records across all MLPerf Training v6.0 benchmarks, driven by the powerful GB300 NVL72 system.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell pla. Article summary: ## MLPerf Training v6.0 Key Highlights. Topic tags: general, documentation, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "Home » News » NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. # NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. NVIDIA has publish" source context "NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform - StorageReview.com" Reference image 2: visual subject "# MLPerf Inference v6.0 Results Explained: GPU Performance Rankings for AI Workloads (2026). MLPerf Inference v6.0 results dropped April 1, 2026, and
openai.com

Консорциум MLCommons опубликовал результаты нового раунда отраслевых тестов MLPerf Training v6.0. Главным ньюсмейкером стала компания NVIDIA, чья новейшая платформа Blackwell одержала безоговорочную победу, выиграв все семь заявленных бенчмарков как по скорости обучения в масштабе кластера, так и по удельной производительности на один ускоритель .

Доминирование в новых тестах Mixture-of-Experts

Ключевой интригой раунда стало появление двух принципиально новых задач для предобучения архитектур MoE (Mixture-of-Experts). Теперь участники должны были справиться с моделями, где задействованы не все параметры сразу, а лишь небольшая так называемая «активная» часть.

DeepSeek-V3 (671 млрд параметров): Гигантская модель, из которой на каждый токен активируется лишь 37 млрд параметров. Ее архитектура включает Multi-head Latent Attention (MLA), 160 маршрутизируемых экспертов и механизм балансировки нагрузки без вспомогательных потерь .
GPT-OSS-20B: Облегченная версия MoE-бенчмарка.

NVIDIA стала единственной компанией, предоставившей результаты по обеим моделям. Секрет успеха кроется в системе GB300 NVL72, объединяющей 72 суперчипа NVIDIA Blackwell Ultra в единый домен с помощью высокоскоростного интерконнекта NVLink, а также в глубоких программных оптимизациях — кастомных CUDA-графах, продвинутой маршрутизации экспертов и использовании низкоуровневого языка CuTe .

Взрывной рекорд CoreWeave: DeepSeek-V3 за 2 минуты

Настоящую сенсацию произвел облачный AI-провайдер CoreWeave, установивший рекорд скорости на самом тяжелом задании. Команда обучила DeepSeek-V3 671B всего за 2.02 минуты. Это стало возможным благодаря развертыванию кластера из 8 192 GPU NVIDIA GB300 NVL72 (2 048 узлов) — крупнейшей конфигурации нового поколения, заявленной в этом раунде .

Важно подчеркнуть, что обучение проходило не в лабораторных условиях, а на стандартной производственной облачной платформе CoreWeave, доступной клиентам. Такой результат был достигнут за счет комплексной инженерной работы: от тонкой настройки сетевого взаимодействия и системы оркестрации до высокопроизводительных уровней хранения данных .

GB300 NVL72 против GB200: эволюция скорости

Новое поколение ускорителей Blackwell Ultra обеспечило значимый отрыв от предшественников. По данным NVIDIA, в задачах инференса система GB300 NVL72 выдает до 2.77 раз больше токенов в секунду, чем GB200 NVL72 . Что касается обучения, то при одинаковом масштабе кластера прирост производительности достигает 1.6x .

Ключ к такому скачку — не только «железо», но и софт. За три месяца работы над оптимизациями для DeepSeek-V3 инженеры NVIDIA увеличили пропускную способность обучения на идентичном оборудовании в 1.3 раза, внедрив полные итерационные CUDA-графы и продвинутые техники слияния операций .

Масштаб и растущая конкуренция

Раунд MLPerf Training v6.0 продемонстрировал не только мощь одного вендора, но и расширение рынка ускорителей ИИ. В тестах приняли участие 24 организации, представившие 95 различных систем на 13 типах аппаратных ускорителей .

Особого внимания заслуживают результаты компании AMD. Ее ускорители Instinct MI355X с новым форматом вычислений MXFP4 показали конкурентную производительность в сравнении с NVIDIA B200: отставание составило около 5% в задаче точной настройки Llama 2-70B и 6% в предобучении Llama 3.1-8B .

Инфраструктурная основа побед

Для работы с «взрывным» сетевым трафиком, характерным для MoE-моделей (all-to-all communication), партнеры NVIDIA масштабировали кластеры до тысяч ускорителей, используя фабрику Spectrum-X Ethernet. Технологии адаптивной маршрутизации и контроля перегрузок позволили удержать пропускную способность сети на уровне, близком к теоретическому пределу .

В итоге абсолютные рекорды были зафиксированы по всем категориям. Для наглядности приведем лучшее время обучения NVIDIA на других ключевых задачах раунда :

Предобучение Llama 3.1 8B: 5.2 минуты
Тонкая настройка Llama 2 70B (LoRA): 0.40 минуты
Генерация изображений (FLUX.1): 12.5 минут
Рекомендательные системы (DLRM-DCNv2): 0.71 минуты
Обнаружение объектов (RetinaNet): 1.4 минуты

Итоги MLPerf Training v6.0 закрепляют тренд на индустриализацию обучения сверхбольших и разреженных моделей, где на первый план выходит не только пиковая производительность чипа, но и синергия аппаратных платформ, инженерных оптимизаций и масштабируемой сетевой инфраструктуры.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Люди также спрашивают

Каков краткий ответ на вопрос «MLPerf Training v6.0: как NVIDIA Blackwell и CoreWeave установили новые стандарты обучения ИИ»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Рекорд CoreWeave: модель DeepSeek V3 с 671 млрд параметров была обучена в производственном облаке всего за 2.02 минуты на кластере из 8 192 GPU GB300 NVL72 — это крупнейшая конфигурация в раунде [8][26].

Источники

Comments

0 comments

Loading comments...

← Back to Trending