| สหรัฐฯ / Google |
| TPU architecture แบบกำหนดเอง |
| 918 TFLOPs bf16 ต่อชิป |
| 32GB HBM |
| ~1.6 TB/s |
| ไม่ระบุ |
| ออกแบบให้ทำงานเป็นคลัสเตอร์ TPU Pod ได้ถึง 256 ชิป |
| Huawei Ascend 910 | จีน / Huawei | Da Vinci architecture ~7nm | ~256 TFLOPS FP16 | HBM | ~1.2 TB/s | ~350W | ชิป AI ระดับเรือธงของ Huawei เปิดตัวปี 2019 |
| Huawei Ascend 910C | จีน / Huawei | chiplet (รวม 910B สองตัว) ~7nm class | ~800 TFLOPS FP16 | ~96–128GB HBM | ~3.2 TB/s | ~310W | ออกแบบมาแข่งขันกับชิประดับ A100/H100 |
| Biren BR100 | จีน / Biren | GPU แบบ dual‑die, TSMC 7nm CoWoS | 256 TFLOPS FP32 / ~2048 TOPS INT8 | 64GB HBM2E | ~2.3 TB/s | ~550W | GPU สำหรับดาต้าเซ็นเตอร์ มีทรานซิสเตอร์ ~77 พันล้านตัว |
| Biren BR104 | จีน / Biren | GPU แบบ single‑die | ~128 TFLOPS FP32 | 32GB HBM2E | ~819 GB/s | ~300W | รุ่นรองสำหรับการ์ด PCIe accelerator |
| Cambricon MLU370‑X8 | จีน / Cambricon | MLUarch03, 7nm | 24 TFLOPS FP32 / 96 TFLOPS FP16 / 256 TOPS INT8 | 48GB LPDDR5 | ~614 GB/s | ~250W | รองรับคลัสเตอร์หลายการ์ดผ่าน MLU‑Link |
ในแง่ตัวเลขประสิทธิภาพที่เปิดเผย สหรัฐฯ ยังมีชิปที่ให้กำลังประมวลผลสูงกว่าในหลายกรณี
ตัวอย่างเช่น
ฝั่งจีนพยายามลดช่องว่างนี้ โดยเฉพาะผ่าน Huawei Ascend 910C ซึ่งใช้การออกแบบแบบ chiplet และมีประสิทธิภาพประมาณ 800 TFLOPS FP16
นอกจากนี้ Biren BR100 ยังเป็นความพยายามของจีนในการแข่งขันระดับสูง โดยให้
ส่วน Cambricon MLU370‑X8 ถูกออกแบบให้รองรับทั้ง training และ inference โดยมี
สำหรับโมเดล AI ขนาดใหญ่ ความเร็วและความจุของหน่วยความจำเป็นปัจจัยสำคัญมาก
ตัวอย่างสำคัญ:
แบนด์วิดท์หน่วยความจำสูงช่วยให้ชิปสามารถเคลื่อนย้ายเทนเซอร์ขนาดใหญ่ระหว่างหน่วยความจำและหน่วยคำนวณได้เร็วขึ้น ซึ่งสำคัญมากสำหรับการฝึกโมเดล LLM
โมเดล AI ขนาดใหญ่ในปัจจุบันแทบไม่เคยฝึกบนชิปตัวเดียว แต่ใช้ คลัสเตอร์ที่มีหลายร้อยหรือหลายพันตัวเร่ง
ตัวอย่างเทคโนโลยีการเชื่อมต่อ:
ดังนั้นการแข่งขัน AI ปัจจุบันจึงไม่ได้อยู่ที่ “ชิปที่แรงที่สุด” เพียงอย่างเดียว แต่รวมถึง การสร้างระบบคลัสเตอร์ที่มีประสิทธิภาพสูง
เทคโนโลยีการผลิตชิปเป็นอีกปัจจัยสำคัญที่กำหนดประสิทธิภาพและประสิทธิภาพพลังงาน
ตัวอย่างเช่น
ในขณะที่ชิปจากสหรัฐฯ มักใช้โรงงานผลิตชั้นนำระดับโลกและเทคโนโลยีแพ็กเกจขั้นสูงในห่วงโซ่อุปทาน
ประสิทธิภาพฮาร์ดแวร์เพียงอย่างเดียวไม่เพียงพอในการแข่งขันด้าน AI
ในทางปฏิบัติ เครื่องมือสำหรับนักพัฒนา เฟรมเวิร์ก AI และการรวมเข้ากับคลาวด์ มักเป็นตัวกำหนดว่าชิปใดถูกนำไปใช้จริงมากที่สุด
จากข้อมูลของชิป AI รุ่นปัจจุบัน สามารถเห็นแนวโน้มสำคัญได้หลายข้อ
ในท้ายที่สุด การแข่งขันชิป AI ระหว่างสหรัฐฯ และจีนจึงไม่ใช่แค่เรื่องของจำนวนทรานซิสเตอร์หรือ TFLOPS แต่เป็นการแข่งขันของ
เมื่อโมเดล generative AI เติบโตขึ้นเรื่อย ๆ ปัจจัยเหล่านี้จะเป็นตัวกำหนดว่าแพลตฟอร์มใดจะกลายเป็นรากฐานหลักของการประมวลผล AI ในอนาคต
Comments
0 comments