Примітно, що NVIDIA виявилася єдиною платформою, яка спромоглася подати результати для обох цих вимогливих тестів. Це стало можливим завдяки системі GB300 NVL72 та глибоко оптимізованому програмному стеку, включно з використанням CUDA graphs та передових методів маршрутизації MoE .
Найбільш вражаючий практичний результат продемонструвала компанія CoreWeave, яка є провідним хмарним провайдером. Вони змогли виконати повне тренування моделі DeepSeek-V3 671B всього за 2.02 хвилини .
Цей рекорд було встановлено на величезному кластері з 8,192 графічних процесорів NVIDIA GB300 NVL72, розподілених на 2,048 вузлах. Це була найбільша конфігурація GB300, заявлена в цьому раунді бенчмарку . Ключовим фактором успіху CoreWeave стала повна стекова оптимізація всіх рівнів інфраструктури: від мережевої взаємодії та оркестрації до систем зберігання даних
. Це демонструє, що хмарні платформи вже готові до навчання найскладніших моделей безпосередньо у продакшн-середовищі.
Результати MLPerf v6.0 чітко показують еволюційний стрибок від GB200 NVL72 до нового GB300 NVL72 (Blackwell Ultra). Нова система отримала більші бюджети пам'яті та енергоспоживання, що дозволило значно підвищити локалізацію моделі та пропускну здатність .
Ось як це виражається в цифрах:
Окремо варто відзначити швидкість програмних інновацій NVIDIA. Лише за три місяці інженерам вдалося підвищити пропускну здатність тренування DeepSeek-V3 на 1.3x на тому ж самому обладнанні. Це стало можливим завдяки таким програмним рішенням, як повноітераційні графи CUDA (full-iteration CUDA graphs) та вдосконалення на рівні компілятора ядра CuTe DSL .
Масштабованість платформи Blackwell дозволила встановити рекордний час навчання і для інших, більш традиційних, завдань. Партнери NVIDIA масштабували кластери до 8,192 GPU, використовуючи Ethernet-комутатори Spectrum-X з адаптивною маршрутизацією для ефективної обробки «вибухового» трафіку all-to-all, характерного для MoE-моделей .
Ці результати свідчать про те, що NVIDIA створила не просто окремий потужний чип, а цілісну платформу, здатну з рекордною швидкістю вирішувати будь-які завдання ШІ-тренування.
Раунд MLPerf Training v6.0 став рекордним за кількістю учасників: 24 організації подали результати на 95 різних системах із використанням 13 різних апаратних прискорювачів .
Це свідчить про зростаючу технічну різноманітність. Зокрема, свій прорив продемонструвала компанія AMD з прискорювачем Instinct MI355X. Використовуючи новий формат точності MXFP4, платформа AMD показала конкурентну продуктивність проти NVIDIA B200. У завданні тонкого налаштування Llama 2-70B відставання від NVIDIA склало лише 5%, а в попередньому навчанні Llama 3.1-8B — 6% . Це робить AMD серйозним претендентом на ринку, хоча тотальне лідерство NVIDIA в усіх категоріях поки що залишається незаперечним.
Результати MLPerf Training v6.0 окреслюють новий рубіж у розвитку ШІ-інфраструктури. Поява бенчмарків на основі DeepSeek-V3 знаменує перехід індустрії до надвеликих та ефективних MoE-моделей. NVIDIA використала цей момент, щоб продемонструвати не просто перевагу свого обладнання, а силу повної вертикальної інтеграції — від кремнію Blackwell Ultra до програмного стеку CUDA. Рекорд CoreWeave з навчання 671-мільярдної моделі за 2 хвилини на хмарі доводить, що ера масового та швидкого створення найскладніших ШІ-моделей вже настала.
Comments
0 comments