What should I do next in practice?

CoreWeave ustanowiło rekord, trenując model DeepSeek V3 671B w 2,02 minuty na klastrze 8192 GPU NVIDIA GB300 NVL72 – największym zgłoszonym w tej rundzie [8][26].

studioglobal

← Back to Trending

AnswersPublished2 weeks agoLast edited 2 weeks ago20 sources

NVIDIA zgarnia wszystko w MLPerf Training 6.0: Rekordy na Blackwell Ultra i nowe testy DeepSeek

NVIDIA odniosła całkowite zwycięstwo w MLPerf Training 6.0, osiągając najszybszy czas treningu i najwyższą wydajność na akcelerator we wszystkich siedmiu benchmarkach [3]. Wprowadzono dwa nowe testy dla architektury Mixture of Experts (MoE): DeepSeek V3 z 671 miliardami parametrów oraz mniejszy GPT OSS 20B [3][10].

Search & fact-check with Studio Global AI Browse more Trending pages

509K0

NVIDIA Blackwell Ultra GPUs powering record-breaking MLPerf Training v6.0 results for massive AI models. — What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell plaNVIDIA's Blackwell platform set new performance records across all MLPerf Training v6.0 benchmarks, driven by the powerful GB300 NVL72 system.
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell pla. Article summary: ## MLPerf Training v6.0 Key Highlights. Topic tags: general, documentation, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "Home » News » NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. # NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. NVIDIA has publish" source context "NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform - StorageReview.com" Reference image 2: visual subject "# MLPerf Inference v6.0 Results Explained: GPU Performance Rankings for AI Workloads (2026). MLPerf Inference v6.0 results dropped April 1, 2026, and
openai.com

MLPerf Training 6.0: NVIDIA dyktuje warunki w świecie AI

Najnowsza edycja branżowych testów wydajności MLPerf Training 6.0 przyniosła jednoznaczny werdykt. NVIDIA dokonała dzieła – wygrała każdy pojedynczy benchmark, zarówno pod względem najkrótszego czasu treningu na dużą skalę, jak i najwyższej wydajności w przeliczeniu na pojedynczy akcelerator . Co więcej, była to jedyna firma, która wzięła udział we wszystkich siedmiu konkurencjach.

To osiągnięcie umacnia dominację platformy NVIDIA Blackwell, ale prawdziwy przełom tkwi w szczegółach: nowych, gigantycznych modelach, rekordowych klastrach i innowacjach programowych.

Nowa era modeli: DeepSeek-V3 i GPT-OSS wchodzą do gry

Konsorcjum MLCommons, stojące za testami MLPerf, postawiło przed uczestnikami zupełnie nowe wyzwanie. W tej rundzie zadebiutowały dwa benchmarki oparte na architekturze Mixture-of-Experts (MoE), która stała się fundamentem najnowszych, przełomowych modeli AI:

DeepSeek-V3: Gigantyczny model językowy o 671 miliardach parametrów, z których 37 miliardów jest aktywowanych dla każdego tokena .
GPT-OSS-20B: Mniejszy, ale wciąż wymagający model MoE.

NVIDIA, wykorzystując swój najpotężniejszy system GB300 NVL72, była jedyną platformą, która podjęła się obu tych zadań . System ten łączy 72 układy Blackwell Ultra w jedną, potężną domenę obliczeniową.

Architektura DeepSeek-V3 jest wyjątkowo zaawansowana. Oprócz MoE wykorzystuje Multi-head Latent Attention (MLA), precyzyjną segmentację ekspertów (160 trasowanych ekspertów) i przewidywanie wielu tokenów na raz, co czyni ją jednym z najbardziej wymagających testów dla sprzętu AI .

Rekord CoreWeave: DeepSeek-V3 wytrenowany w 2 minuty

Największe wrażenie zrobił wynik dostawcy chmury obliczeniowej CoreWeave. Firma, korzystając z produkcyjnej infrastruktury dostępnej dla swoich klientów, wytrenowała model DeepSeek-V3 671B w zaledwie 2,02 minuty .

Był to nie tylko najszybszy czas dla tego modelu w całym teście, ale także pokaz możliwości ogromnego klastra. CoreWeave użyło 8192 układów GPU NVIDIA GB300 NVL72, co było największą konfiguracją zgłoszoną w tej rundzie . Kluczem do sukcesu była optymalizacja całego stosu technologicznego – od sieci, przez orkiestrację, po warstwę pamięci masowej.

GB300 vs. GB200: Skok generacyjny Blackwell Ultra

Porównanie nowej platformy GB300 NVL72 z poprzednią generacją GB200 NVL72 pokazuje, jak duży jest postęp technologiczny:

W zadaniach inferencji (wnioskowania) GB300 NVL72, należący do rodziny Blackwell Ultra, osiąga nawet 2,77 razy wyższą przepustowość w tokenach na sekundę niż GB200 NVL72 .
W treningu, przy tej samej skali, GB300 NVL72 jest do 1,6 raza szybszy od swojego poprzednika .

Przewaga ta wynika z większych zasobów pamięci i budżetu energetycznego, ale to tylko połowa sukcesu. Druga połowa to oprogramowanie. Inżynierowie NVIDII osiągnęli 1,3-krotny wzrost przepustowości treningu DeepSeek-V3 w ciągu zaledwie trzech miesięcy na identycznym sprzęcie, wykorzystując zaawansowane techniki, takie jak pełnoiteracyjne grafy CUDA i fuzje oparte na CuTe DSL . Pokazuje to, jak bardzo optymalizacja stosu programowego (CUDA) wpływa na końcowy wynik.

Różnorodność i konkurencja: AMD depcze po piętach

Choć NVIDIA zdominowała wyniki, runda MLPerf Training 6.0 była rekordowa pod względem różnorodności:

Swoje wyniki zgłosiły 24 organizacje, testując 95 różnych systemów i 13 typów akceleratorów sprzętowych .
Coraz większą rolę odgrywają różne warianty precyzji obliczeń. AMD wykorzystało w swoich układach Instinct MI355X format MXFP4, osiągając wyniki konkurencyjne wobec platformy NVIDIA B200. W dostrajaniu modelu Llama 2-70B AMD było w zasięgu 5%, a w treningu wstępnym Llama 3.1-8B – w granicach 6% od wyniku rywala .

Ta techniczna różnorodność, którą doceniła współprzewodnicząca MLPerf Training, Shriya Rishab, pokazuje, że rynek AI staje się coraz bardziej zaawansowany i konkurencyjny .

Sieć i skala: Sekretne składniki rekordów

Osiągnięcie rekordowych czasów na tak dużą skalę nie byłoby możliwe bez innowacji w łączności. Partnerzy NVIDII skalowali swoje klastry do 8192 układów Blackwell, wykorzystując technologię Spectrum-X Ethernet.

Jest to kluczowe dla modeli MoE, które wymagają intensywnej, "wybuchowej" komunikacji wszystkich ze wszystkimi. Funkcje takie jak Adaptive Routing i Congestion Control pozwoliły utrzymać przepustowość sieci bliską teoretycznemu maksimum .

Dzięki połączeniu domen NVLink-switch i sieci scale-out, platforma NVIDII ustanowiła rekordowe czasy we wszystkich kategoriach, od dużych modeli językowych po generowanie obrazów:

Trening wstępny Llama 3.1 8B: 5,2 minuty
Dostrajanie Llama 2 70B: 0,40 minuty
Generowanie obrazów (FLUX.1): 12,5 minuty
System rekomendacji (DLRM-DCNv2): 0,71 minuty

Te wyniki to nie tylko suche liczby – to dowód na to, że kompleksowa integracja sprzętu i oprogramowania, od pojedynczego GPU po całe centrum danych, jest dziś kluczem do wygrywania wyścigu o coraz potężniejsze modele AI.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Search & fact-check with Studio Global AI

Sources

Comments

0 comments

Loading comments...

← Back to Trending

AnswersPublished2 weeks agoLast edited 2 weeks ago20 sources

NVIDIA zgarnia wszystko w MLPerf Training 6.0: Rekordy na Blackwell Ultra i nowe testy DeepSeek

Search & fact-check with Studio Global AI Browse more Trending pages

509K0

MLPerf Training 6.0: NVIDIA dyktuje warunki w świecie AI

To osiągnięcie umacnia dominację platformy NVIDIA Blackwell, ale prawdziwy przełom tkwi w szczegółach: nowych, gigantycznych modelach, rekordowych klastrach i innowacjach programowych.

Nowa era modeli: DeepSeek-V3 i GPT-OSS wchodzą do gry

DeepSeek-V3: Gigantyczny model językowy o 671 miliardach parametrów, z których 37 miliardów jest aktywowanych dla każdego tokena .
GPT-OSS-20B: Mniejszy, ale wciąż wymagający model MoE.

Rekord CoreWeave: DeepSeek-V3 wytrenowany w 2 minuty

GB300 vs. GB200: Skok generacyjny Blackwell Ultra

Porównanie nowej platformy GB300 NVL72 z poprzednią generacją GB200 NVL72 pokazuje, jak duży jest postęp technologiczny:

W zadaniach inferencji (wnioskowania) GB300 NVL72, należący do rodziny Blackwell Ultra, osiąga nawet 2,77 razy wyższą przepustowość w tokenach na sekundę niż GB200 NVL72 .
W treningu, przy tej samej skali, GB300 NVL72 jest do 1,6 raza szybszy od swojego poprzednika .

Różnorodność i konkurencja: AMD depcze po piętach

Choć NVIDIA zdominowała wyniki, runda MLPerf Training 6.0 była rekordowa pod względem różnorodności:

Swoje wyniki zgłosiły 24 organizacje, testując 95 różnych systemów i 13 typów akceleratorów sprzętowych .
Coraz większą rolę odgrywają różne warianty precyzji obliczeń. AMD wykorzystało w swoich układach Instinct MI355X format MXFP4, osiągając wyniki konkurencyjne wobec platformy NVIDIA B200. W dostrajaniu modelu Llama 2-70B AMD było w zasięgu 5%, a w treningu wstępnym Llama 3.1-8B – w granicach 6% od wyniku rywala .

Ta techniczna różnorodność, którą doceniła współprzewodnicząca MLPerf Training, Shriya Rishab, pokazuje, że rynek AI staje się coraz bardziej zaawansowany i konkurencyjny .

Sieć i skala: Sekretne składniki rekordów

Dzięki połączeniu domen NVLink-switch i sieci scale-out, platforma NVIDII ustanowiła rekordowe czasy we wszystkich kategoriach, od dużych modeli językowych po generowanie obrazów:

Trening wstępny Llama 3.1 8B: 5,2 minuty
Dostrajanie Llama 2 70B: 0,40 minuty
Generowanie obrazów (FLUX.1): 12,5 minuty
System rekomendacji (DLRM-DCNv2): 0,71 minuty

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

NVIDIA zgarnia wszystko w MLPerf Training 6.0: Rekordy na Blackwell Ultra i nowe testy DeepSeek

MLPerf Training 6.0: NVIDIA dyktuje warunki w świecie AI

Nowa era modeli: DeepSeek-V3 i GPT-OSS wchodzą do gry

Rekord CoreWeave: DeepSeek-V3 wytrenowany w 2 minuty

GB300 vs. GB200: Skok generacyjny Blackwell Ultra

Różnorodność i konkurencja: AMD depcze po piętach

Sieć i skala: Sekretne składniki rekordów

Search, cite, and publish your own answer

People also ask

What is the short answer to "NVIDIA zgarnia wszystko w MLPerf Training 6.0: Rekordy na Blackwell Ultra i nowe testy DeepSeek"?

What are the key points to validate first?

What should I do next in practice?

Sources

Comments

NVIDIA zgarnia wszystko w MLPerf Training 6.0: Rekordy na Blackwell Ultra i nowe testy DeepSeek

MLPerf Training 6.0: NVIDIA dyktuje warunki w świecie AI

Nowa era modeli: DeepSeek-V3 i GPT-OSS wchodzą do gry

Rekord CoreWeave: DeepSeek-V3 wytrenowany w 2 minuty

GB300 vs. GB200: Skok generacyjny Blackwell Ultra

Różnorodność i konkurencja: AMD depcze po piętach

Sieć i skala: Sekretne składniki rekordów

Search, cite, and publish your own answer

People also ask

What is the short answer to "NVIDIA zgarnia wszystko w MLPerf Training 6.0: Rekordy na Blackwell Ultra i nowe testy DeepSeek"?

What are the key points to validate first?

What should I do next in practice?

Sources

Comments