إنفيديا تكتسح اختبارات MLPerf للتدريب: منصة Blackwell تحقق اكتساحاً كاملاً وتدرب نموذج DeepSeek-V3 العملاق في دقيقتين فقط
إنفيديا تحقق اكتساحاً كاملاً في MLPerf Training v6.0 بأسرع وقت تدريب وأعلى أداء لكل مسرّع في جميع الاختبارات السبعة. ظهور معايير جديدة لنماذج "خليط الخبراء" (MoE) تشمل تدريب نموذج DeepSeek V3 الضخم بـ 671 مليار معامل.
What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell plaNVIDIA's Blackwell platform set new performance records across all MLPerf Training v6.0 benchmarks, driven by the powerful GB300 NVL72 system.
موجّه الذكاء الاصطناعي
Create a landscape editorial hero image for this Studio Global article: What are the key highlights from the MLPerf Training v6.0 results, including Nvidia's performance across all benchmarks on its Blackwell pla. Article summary: ## MLPerf Training v6.0 Key Highlights. Topic tags: general, documentation, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "Home » News » NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. # NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform. NVIDIA has publish" source context "NVIDIA Sets MLPerf Inference v6.0 Records with Blackwell Ultra Platform - StorageReview.com" Reference image 2: visual subject "# MLPerf Inference v6.0 Results Explained: GPU Performance Rankings for AI Workloads (2026). MLPerf Inference v6.0 results dropped April 1, 2026, and
openai.com
أبرز نتائج اختبارات MLPerf Training v6.0
حققت إنفيديا اكتساحاً كاملاً، وفازت بكل اختبار في MLPerf Training v6.0، بما في ذلك أسرع وقت للتدريب على نطاق واسع وأعلى أداء لكل مسرّع عبر جميع مهام العمل السبعة — وكانت الجهة الوحيدة التي شاركت في كل اختبار .
معايير جديدة لنماذج "خليط الخبراء" (DeepSeek-V3 & GPT-OSS-20B)
أضافت منظمة MLCommons معيارين جديدين للتدريب المسبق لنماذج "خليط الخبراء" (MoE): DeepSeek-V3 (بإجمالي 671 مليار معامل، و37 مليار معامل مفعّل لكل رمز) ونموذج GPT-OSS-20B الأصغر .
كانت إنفيديا المنصة الوحيدة التي قدمت نتائج لكلا المعيارين الجديدين، باستخدام نظام GB300 NVL72 المُحسَّن عبر حزم برمجية مخصصة، ورسوم CUDA البيانية، وتوجيه متقدم لخبراء النموذج .
يتميز DeepSeek-V3 بتقنيات متطورة مثل الانتباه الكامن متعدد الرؤوس (MLA)، وتجزئة الخبراء دقيقة الحبيبات (160 خبيراً موجهاً)، والتنبؤ متعدد الرموز، وموازنة حمل خالية من الخسائر المساعدة .
Studio Global AI
Search, cite, and publish your own answer
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
ما هي الإجابة المختصرة على "إنفيديا تكتسح اختبارات MLPerf للتدريب: منصة Blackwell تحقق اكتساحاً كاملاً وتدرب نموذج DeepSeek-V3 العملاق في دقيقتين فقط"؟
إنفيديا تحقق اكتساحاً كاملاً في MLPerf Training v6.0 بأسرع وقت تدريب وأعلى أداء لكل مسرّع في جميع الاختبارات السبعة.
ما هي النقاط الأساسية التي يجب التحقق منها أولاً؟
إنفيديا تحقق اكتساحاً كاملاً في MLPerf Training v6.0 بأسرع وقت تدريب وأعلى أداء لكل مسرّع في جميع الاختبارات السبعة. ظهور معايير جديدة لنماذج "خليط الخبراء" (MoE) تشمل تدريب نموذج DeepSeek V3 الضخم بـ 671 مليار معامل.
ماذا يجب أن أفعل بعد ذلك في الممارسة العملية؟
CoreWeave تحقق رقماً قياسياً بتدريب DeepSeek V3 في 2.02 دقيقة فقط على 8192 وحدة معالجة رسوميات من نوع GB300.
قامت CoreWeave بتدريب نموذج DeepSeek-V3 671B في 2.02 دقيقة على 8,192 وحدة معالجة رسوميات NVIDIA GB300 NVL72 — وهي أكبر مجموعة من هذا النوع في الجولة — تعمل على بنية تحتية سحابية إنتاجية .
كان هذا أسرع تدريب لنموذج DeepSeek-V3 في هذا المعيار، وقد تحقق بفضل تحسينات شاملة عبر طبقات الشبكات، والتنسيق، والتخزين .
NVIDIA GB300 NVL72 مقابل GB200 NVL72
يحقق نظام GB300 NVL72 (Blackwell Ultra) تسريعاً في الرموز في الثانية يصل إلى 2.77 ضعف مقارنة بـ GB200 NVL72 في الاستدلال، وأظهر إنتاجية تدريب أعلى بكثير في هذه الجولة .
يستفيد Blackwell Ultra من ذاكرة أكبر وميزانيات طاقة أعلى، مما يتيح موضعية أفضل للنموذج وإنتاجية أعلى مقارنة بـ GB200 .
حققت حزمة برمجيات إنفيديا مكاسب إضافية: حيث تحسنت إنتاجية تدريب DeepSeek-V3 بمقدار 1.3 ضعف في ثلاثة أشهر فقط على نفس العتاد، وذلك بفضل ابتكارات برمجية مثل رسوم CUDA البيانية للتكرار الكامل ودمجات CuTe DSL .
مشاركة قياسية وتنوع تقني
قدمت 24 منظمة نتائج عبر 95 نظاماً مختلفاً باستخدام 13 مسرّع أجهزة مختلفاً.
شهدت هذه الجولة تنوعاً تقنياً متزايداً شمل وصفات دقة FP4 متعددة (بما في ذلك MXFP4 من AMD) وأطر عمل برمجية متنوعة، كما أشارت شريا ريشاب، الرئيسة المشاركة لاختبار MLPerf للتدريب .
قدمت وحدات AMD Instinct MI355X باستخدام MXFP4 أداءً تنافسياً ضد NVIDIA B200 في مهمتي ضبط Llama 2-70B والتدريب المسبق لـ Llama 3.1-8B .
شبكات التوسع والمكاسب على مستوى النظام
تمكن شركاء إنفيديا من التوسع إلى 8,192 وحدة معالجة رسوميات Blackwell عبر مجموعات عملاقة، مستفيدين من شبكة Spectrum-X Ethernet مع توجيه متكيف وتحكم في الازدحام للحفاظ على عرض نطاق قريب من النظري للنسيج الشبكي، وهو أمر ضروري لأنماط الاتصال المتقطعة من الكل إلى الكل في نماذج MoE .
قدم مزيج نطاقات NVLink-switch ونسيج التوسع أزمنة قياسية عبر جميع المعايير، بما في ذلك التدريب المسبق لـ Llama 3.1 8B (5.2 دقيقة)، وضبط Llama 2 70B (0.40 دقيقة)، وتوليد الصور FLUX.1 (12.5 دقيقة)، و DLRM-DCNv2 (0.71 دقيقة)، و RetinaNet (1.4 دقيقة) .
investors.coreweave.comCoreWeave Delivers Leading Inference Performance in MLPerf ...
Comments
0 comments