สัญญาณที่ชัดที่สุดว่า Trainium เริ่มได้รับความนิยมคือ ขนาดของข้อตกลงระยะยาวกับลูกค้า
AWS เปิดเผยว่ามีข้อตกลงด้านคอมพิวต์แบบ multi‑year และ multi‑gigawatt สำหรับการใช้ Trainium กับบริษัท AI ชั้นนำของโลก
ตัวอย่างสำคัญ ได้แก่
ดีลเหล่านี้สำคัญ เพราะแสดงให้เห็นว่าการใช้งานไม่ได้จำกัดแค่ภายใน Amazon แต่เริ่มถูกนำไปใช้โดย ทั้งห้องวิจัย AI ระดับโลกและแพลตฟอร์มธุรกิจขนาดใหญ่
แต่ก็มีแรงกดดันเชิงโครงสร้างหลายอย่างที่ทำให้บริษัทต่าง ๆ เริ่มกระจายการใช้งาน
1. ปัญหาซัพพลายและความต้องการสูงมาก
การฝึกโมเดล AI สมัยใหม่ต้องใช้คลัสเตอร์ชิปจำนวนมหาศาล การพึ่งผู้ผลิตรายเดียวอาจทำให้เกิดคอขวดด้านซัพพลาย
2. ต้นทุนการคำนวณที่สูงมาก
ค่า compute กลายเป็นหนึ่งในต้นทุนที่ใหญ่ที่สุดของบริษัท AI การใช้ชิปที่ออกแบบเฉพาะงานอาจลดค่าใช้จ่ายได้
3. การรวมระบบแนวตั้งของผู้ให้บริการคลาวด์
เมื่อบริษัทอย่าง Amazon สร้างชิปเอง พวกเขาสามารถควบคุมทั้งฮาร์ดแวร์ ซอฟต์แวร์ และราคาในระบบคลาวด์ได้
อย่างไรก็ตาม บริษัทส่วนใหญ่ ไม่ได้เลิกใช้ Nvidia แต่กำลังใช้กลยุทธ์แบบ multi‑vendor เช่น ใช้ GPU ควบคู่กับ Trainium หรือ TPU ของ Google
AWS เปิดตัว Trainium3 เพื่อเพิ่มประสิทธิภาพสำหรับเวิร์กโหลด AI ขนาดใหญ่
AWS ระบุว่าลูกค้าบางรายสามารถลดค่าใช้จ่ายในการเทรนและ inference ได้ สูงสุดประมาณ 50% เมื่อใช้ระบบที่ใช้ Trainium แม้ว่าผลลัพธ์จริงจะขึ้นอยู่กับโครงสร้างโมเดลและการปรับซอฟต์แวร์
นอกจากนี้ Amazon ยังกล่าวว่า
อย่างไรก็ตาม Nvidia ยังมีข้อได้เปรียบสำคัญด้าน ระบบซอฟต์แวร์และ ecosystem นักพัฒนา โดยเฉพาะแพลตฟอร์ม CUDA
ตลาดชิป AI ตอนนี้กำลังถูกกำหนดโดยสามแนวทางหลัก
Nvidia
ผู้นำตลาดชิป AI ที่ครองการฝึกโมเดลระดับ frontier และมี ecosystem ซอฟต์แวร์ที่แข็งแกร่ง
Google
ผู้บุกเบิกชิป AI เฉพาะทางผ่าน TPU (Tensor Processing Unit) ซึ่งใช้ภายใน Google มานานและเริ่มเปิดให้ลูกค้า cloud ใช้งานมากขึ้น
Amazon
AWS กำลังสร้างสแต็กฮาร์ดแวร์ของตัวเอง ตั้งแต่
แทนที่จะแข่งกันเฉพาะความแรงของชิป Amazon กำลังใช้กลยุทธ์ ผสานฮาร์ดแวร์ คลาวด์ และสัญญาระยะยาวกับลูกค้า เข้าด้วยกัน
ชิป Trainium ของ Amazon เริ่มมีบทบาทจริงในตลาด AI เพราะ AWS กำลังเปลี่ยนชิปที่ออกแบบเองให้กลายเป็นแพลตฟอร์มโครงสร้างพื้นฐานขนาดใหญ่
ข้อตกลงมูลค่ามหาศาลกับบริษัทอย่าง Anthropic, OpenAI และ Uber รวมถึงการปรับปรุงด้านประสิทธิภาพของ Trainium3 ทำให้ Trainium กลายเป็นทางเลือกที่น่าสนใจสำหรับเวิร์กโหลด AI ขนาดใหญ่
แม้ว่า Nvidia จะยังเป็นผู้นำตลาดอย่างชัดเจน แต่การเกิดขึ้นของชิปจากผู้ให้บริการคลาวด์รายใหญ่บ่งชี้ว่าอนาคตของโครงสร้างพื้นฐาน AI อาจไม่ใช่ระบบที่พึ่งผู้ผลิตรายเดียวอีกต่อไป
Comments
0 comments