NVIDIA odniosła całkowite zwycięstwo w MLPerf Training 6.0, osiągając najszybszy czas treningu i najwyższą wydajność na akcelerator we wszystkich siedmiu benchmarkach [3]. Wprowadzono dwa nowe testy dla architektury Mixture of Experts (MoE): DeepSeek V3 z 671 miliardami parametrów oraz mniejszy GPT OSS 20B [3][10].

Create a landscape editorial hero image for this Studio Global article: What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell pla. Article summary: ## MLPerf Training v6.0 Key Highlights. Topic tags: general, documentation, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "Home » News » NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. # NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. NVIDIA has publish" source context "NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform - StorageReview.com" Reference image 2: visual subject "# MLPerf Inference v6.0 Results Explained: GPU Performance Rankings for AI Workloads (2026). MLPerf Inference v6.0 results dropped April 1, 2026, and
Najnowsza edycja branżowych testów wydajności MLPerf Training 6.0 przyniosła jednoznaczny werdykt. NVIDIA dokonała dzieła – wygrała każdy pojedynczy benchmark, zarówno pod względem najkrótszego czasu treningu na dużą skalę, jak i najwyższej wydajności w przeliczeniu na pojedynczy akcelerator . Co więcej, była to jedyna firma, która wzięła udział we wszystkich siedmiu konkurencjach.
To osiągnięcie umacnia dominację platformy NVIDIA Blackwell, ale prawdziwy przełom tkwi w szczegółach: nowych, gigantycznych modelach, rekordowych klastrach i innowacjach programowych.
Konsorcjum MLCommons, stojące za testami MLPerf, postawiło przed uczestnikami zupełnie nowe wyzwanie. W tej rundzie zadebiutowały dwa benchmarki oparte na architekturze Mixture-of-Experts (MoE), która stała się fundamentem najnowszych, przełomowych modeli AI:
NVIDIA, wykorzystując swój najpotężniejszy system GB300 NVL72, była jedyną platformą, która podjęła się obu tych zadań . System ten łączy 72 układy Blackwell Ultra w jedną, potężną domenę obliczeniową.
Architektura DeepSeek-V3 jest wyjątkowo zaawansowana. Oprócz MoE wykorzystuje Multi-head Latent Attention (MLA), precyzyjną segmentację ekspertów (160 trasowanych ekspertów) i przewidywanie wielu tokenów na raz, co czyni ją jednym z najbardziej wymagających testów dla sprzętu AI .
Największe wrażenie zrobił wynik dostawcy chmury obliczeniowej CoreWeave. Firma, korzystając z produkcyjnej infrastruktury dostępnej dla swoich klientów, wytrenowała model DeepSeek-V3 671B w zaledwie 2,02 minuty .
Był to nie tylko najszybszy czas dla tego modelu w całym teście, ale także pokaz możliwości ogromnego klastra. CoreWeave użyło 8192 układów GPU NVIDIA GB300 NVL72, co było największą konfiguracją zgłoszoną w tej rundzie . Kluczem do sukcesu była optymalizacja całego stosu technologicznego – od sieci, przez orkiestrację, po warstwę pamięci masowej.
Porównanie nowej platformy GB300 NVL72 z poprzednią generacją GB200 NVL72 pokazuje, jak duży jest postęp technologiczny:
Przewaga ta wynika z większych zasobów pamięci i budżetu energetycznego, ale to tylko połowa sukcesu. Druga połowa to oprogramowanie. Inżynierowie NVIDII osiągnęli 1,3-krotny wzrost przepustowości treningu DeepSeek-V3 w ciągu zaledwie trzech miesięcy na identycznym sprzęcie, wykorzystując zaawansowane techniki, takie jak pełnoiteracyjne grafy CUDA i fuzje oparte na CuTe DSL . Pokazuje to, jak bardzo optymalizacja stosu programowego (CUDA) wpływa na końcowy wynik.
Choć NVIDIA zdominowała wyniki, runda MLPerf Training 6.0 była rekordowa pod względem różnorodności:
Ta techniczna różnorodność, którą doceniła współprzewodnicząca MLPerf Training, Shriya Rishab, pokazuje, że rynek AI staje się coraz bardziej zaawansowany i konkurencyjny .
Osiągnięcie rekordowych czasów na tak dużą skalę nie byłoby możliwe bez innowacji w łączności. Partnerzy NVIDII skalowali swoje klastry do 8192 układów Blackwell, wykorzystując technologię Spectrum-X Ethernet.
Jest to kluczowe dla modeli MoE, które wymagają intensywnej, "wybuchowej" komunikacji wszystkich ze wszystkimi. Funkcje takie jak Adaptive Routing i Congestion Control pozwoliły utrzymać przepustowość sieci bliską teoretycznemu maksimum .
Dzięki połączeniu domen NVLink-switch i sieci scale-out, platforma NVIDII ustanowiła rekordowe czasy we wszystkich kategoriach, od dużych modeli językowych po generowanie obrazów:
Te wyniki to nie tylko suche liczby – to dowód na to, że kompleksowa integracja sprzętu i oprogramowania, od pojedynczego GPU po całe centrum danych, jest dziś kluczem do wygrywania wyścigu o coraz potężniejsze modele AI.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
NVIDIA odniosła całkowite zwycięstwo w MLPerf Training 6.0, osiągając najszybszy czas treningu i najwyższą wydajność na akcelerator we wszystkich siedmiu benchmarkach [3].
NVIDIA odniosła całkowite zwycięstwo w MLPerf Training 6.0, osiągając najszybszy czas treningu i najwyższą wydajność na akcelerator we wszystkich siedmiu benchmarkach [3]. Wprowadzono dwa nowe testy dla architektury Mixture of Experts (MoE): DeepSeek V3 z 671 miliardami parametrów oraz mniejszy GPT OSS 20B [3][10].
CoreWeave ustanowiło rekord, trenując model DeepSeek V3 671B w 2,02 minuty na klastrze 8192 GPU NVIDIA GB300 NVL72 – największym zgłoszonym w tej rundzie [8][26].
Loading comments...
Comments
0 comments