Đối tác của NVIDIA, CoreWeave, đã tạo nên một cột mốc đáng kinh ngạc khi huấn luyện thành công mô hình DeepSeek-V3 671B chỉ trong 2,02 phút. Thành tích này đạt được trên cụm 8.192 GPU NVIDIA GB300 NVL72 — cụm GB300 lớn nhất được ghi nhận trong kỳ đánh giá này — và hoạt động trên chính hạ tầng đám mây sẵn sàng phục vụ khách hàng của CoreWeave .
Đây là kết quả huấn luyện DeepSeek-V3 nhanh nhất từ trước đến nay, vượt mọi giới hạn trước đó, có được nhờ tối ưu toàn diện trên các lớp mạng, điều phối và lưu trữ .
So sánh giữa hai thế hệ chip mạnh nhất của NVIDIA cho thấy bước nhảy vọt về công nghệ:
Kỳ MLPerf này ghi nhận sự tham gia đông đảo kỷ lục từ 24 tổ chức với 95 hệ thống khác nhau, sử dụng 13 loại tăng tốc phần cứng — một minh chứng cho sự sôi động của thị trường AI .
Dù "cơn bão" NVIDIA vẫn cực kỳ mạnh mẽ, đối thủ AMD cũng cho thấy những tín hiệu đáng khích lệ. Nền tảng AMD Instinct MI355X sử dụng định dạng dấu phẩy động MXFP4 đã thể hiện hiệu năng rất cạnh tranh so với NVIDIA B200 trên hai bài toán fine-tune Llama 2-70B (chỉ kém 5%) và pre-training Llama 3.1-8B (kém 6%) . Điều này cho thấy cuộc đua về hiệu năng và chi phí trên mỗi token sẽ còn ngày càng hấp dẫn.
Để đạt được những kỷ lục ở quy mô hàng nghìn GPU, vai trò của mạng kết nối là sống còn. Các đối tác của NVIDIA đã mở rộng quy mô lên tới 8.192 GPU Blackwell, dựa trên nền tảng Spectrum-X Ethernet với các tính năng Định tuyến Thích ứng và Kiểm soát Tắc nghẽn. Công nghệ này giúp duy trì băng thông mạng gần mức lý thuyết, điều tối quan trọng cho các mô hình MoE vốn có kiểu giao tiếp "bùng nổ" (all-to-all communication) giữa các GPU .
Kết hợp miền kết nối NVLink với hạ tầng mạng mở rộng, NVIDIA cùng các đối tác đã lập hàng loạt kỷ lục ấn tượng khác về thời gian huấn luyện:
Comments
0 comments