GB300 NVL72 ถูกขนานนามว่าเป็น 'ม้าศึกตัวใหม่สำหรับอินเฟอเรนซ์/เทรนนิ่ง' พร้อมแนวคิดเรื่องต้นทุนต่อโทเค็น (cost-per-token) ที่ชัดเจน สะท้อนให้เห็นว่าอุตสาหกรรมกำลังเปลี่ยนโฟกัสไปที่การทำให้โมเดล AI ทำงานจริงในวงกว้าง ตามข้อมูลจากหน้าสินค้าของ NVIDIA มันมีประสิทธิภาพ FP4 Tensor Core FLOPS มากกว่า 1.5 เท่า และประสิทธิภาพ Attention สูงกว่า 2 เท่า เมื่อเทียบกับ GPU NVIDIA Blackwell
ระบบเน็ตเวิร์กความเร็วสูงเป็นเสาหลักพื้นฐานของการติดตั้งครั้งนี้ ระบบ NVIDIA GB300 NVL72 เชื่อมต่อกันด้วย NVIDIA Spectrum-X Ethernet networking ซึ่งเป็นโครงข่ายอีเทอร์เน็ตไร้การสูญเสียที่ออกแบบมาเพื่อขจัดปัญหาคอขวดในภาระงาน AI แบบหลายโหนด
การติดตั้งนี้ประกอบด้วยอินเตอร์คอนเนกต์ 400GbE และ 800GbE, ออปติคัลทรานซีฟเวอร์, สวิตช์ NVIDIA Spectrum-X Ethernet และ SuperNIC หากไม่มีโครงข่ายนี้ การขยายสเกลอินเฟอเรนซ์ไปสู่ระดับองค์กรจะทำให้เกิดความหน่วงและคอขวดของแบนด์วิดท์อย่างรุนแรง เอกสาร NVIDIA Enterprise Reference Architecture สำหรับ NVL72 AI Factory ยืนยันว่าสถาปัตยกรรมเน็ตเวิร์กแบบ dual-plane นี้ถูกออกแบบมาเพื่อขับเคลื่อนดาต้าเซ็นเตอร์ขององค์กรสำหรับ AI training และ inference ในระดับมหาศาล รองรับแอปพลิเคชันเรียลไทม์และโมเดลพันล้านล้านพารามิเตอร์
แม้ว่าโครงสร้างพื้นฐานจะรองรับทั้ง Training และ Inference แต่การประกาศครั้งนี้เน้นย้ำถึงการให้ความสำคัญที่เพิ่มขึ้นขององค์กรต่อ AI inference (การนำไปใช้งานจริง) ควบคู่ไปกับการฝึก สัญญาณหลายอย่างชี้ไปที่การเปลี่ยนแปลงนี้:
นัยสำคัญคือ องค์กรต่าง ๆ ได้ก้าวผ่านช่วงทดลองแล้ว และกำลังมองหาโครงสร้างพื้นฐานที่ปรับให้เหมาะสมสำหรับการปรับใช้โมเดล AI ในสเกลใหญ่ในสภาพแวดล้อมการผลิตจริง
นอกจากความร่วมมือกับ Vultr แล้ว HPE ยังเน้นย้ำถึงความคิดริเริ่มที่เกี่ยวข้องอีกหลายประการ:
การเลือกของ Vultr ที่จับมือ HPE และ NVIDIA ส่งสัญญาณถึงจุดเปลี่ยนสำคัญ ในฐานะไฮเปอร์สเกลเลอร์เอกชนรายใหญ่ที่สุด Vultr กำลังเดิมพันว่าองค์กรต้องการโครงสร้างพื้นฐานที่สามารถรองรับทั้ง Training และ Inference แบบเรียลไทม์ในระดับคลาวด์ โดยการผสานการประมวลผล GPU แบบ rack-scale ของ NVIDIA เข้ากับสถาปัตยกรรม AI Factory ระบบระบายความร้อนด้วยของเหลว และบริการของ HPE ทำให้ Vultr วางตำแหน่งตัวเองเพื่อรองรับคลื่นลูกใหม่ของภาระงาน AI สำหรับองค์กร ตั้งแต่การฝึกโมเดลไปจนถึงการอนุมานแบบเรียลไทม์บนโมเดลที่มีพารามิเตอร์นับล้านล้าน
Comments
0 comments