สิ่งที่ทำให้ความร่วมมือนี้ต่างจากการจ้างออกแบบชิป ASIC ทั่วๆ ไปคือขอบเขตของโปรเจกต์ FuriosaAI และ Broadcom ไม่ได้แค่ออกแบบชิปให้เร็วขึ้น แต่กำลังสร้าง แพลตฟอร์มประมวลผล AI ระดับแร็คที่รวมเป็นหนึ่งเดียว เพื่อจัดการกับปัญหาคอขวดทั้งระบบในศูนย์ข้อมูล AI ขนาดใหญ่ (Hyperscale)
Charlie Kawwas ประธานกลุ่มธุรกิจ Semiconductor Solutions ของ Broadcom กล่าวถึงความร่วมมือในมุมของประสิทธิภาพระดับระบบว่า "ประสิทธิภาพในการอนุมานไม่ได้วัดกันที่พลังการประมวลผลดิบๆ อีกต่อไปแล้ว... การจับคู่สถาปัตยกรรม TCP ของ Furiosa เข้ากับ XPU Technology และ IP Platform, อีเทอร์เน็ตสวิตช์ และ Fabric Switches ระดับแนวหน้าของ Broadcom เรากำลังสร้างแพลตฟอร์มที่จัดการกับปัญหาคอขวดสำคัญของ AI แบบ Agentic ระดับขนาดใหญ่" ระบบนี้สร้างขึ้นด้วยโครงข่ายแบบ All-to-All เพื่อรองรับรูปแบบการสื่อสารที่ซับซ้อนของโมเดล AI แบบ Mixture-of-Experts (MoE)
FuriosaAI เข้าสู่พันธมิตรครั้งนี้ด้วยซิลิคอนที่ผ่านการพิสูจน์ในเชิงพาณิชย์แล้ว ชิปรุ่นที่สองในชื่อ RNGD กำลังผลิตจำนวนมากบนกระบวนการ 5 นาโนเมตรของ TSMC RNGD เป็นการ์ดแบบ PCIe ที่ใช้พลังงาน 180W ให้ประสิทธิภาพการประมวลผล FP8 ได้ 512 ล้านล้านครั้งต่อวินาที (TeraFLOPS) พร้อมหน่วยความจำ HBM3 48GB และแบนด์วิดท์ 1.5 TB/s แม้ประสิทธิภาพสูงสุดจะน้อยกว่า Nvidia B200 ถึง 9 เท่า แต่ใช้พลังงานน้อยกว่าถึง 5 เท่า
RNGD ได้รับการตรวจสอบและใช้งานโดยองค์กรรายใหญ่ของเกาหลี เช่น Samsung SDS และ LG AI Research ซึ่งทาง LG กำลังรันโมเดลตระกูล Exaone บนฮาร์ดแวร์นี้ แรงส่งในเชิงพาณิชย์นี้สร้างความน่าเชื่อถือให้สตาร์ทอัพรายนี้เป็นอย่างดีในขณะที่กำลังเล็งเป้าไปที่ตลาดศูนย์ข้อมูลระดับโลกด้วยแพลตฟอร์มรุ่นที่สาม
จุดแตกต่างสำคัญคือชุดซอฟต์แวร์ของ FuriosaAI SDK ของบริษัทใช้คอมไพเลอร์แบบ General Compiler ที่สามารถแปลโค้ด PyTorch ไปเป็นคำสั่งบนซิลิคอนได้โดยอัตโนมัติ โดยไม่ต้องใช้โค้ด CUDA ที่ปรับแต่งด้วยมือแต่อย่างใด Virtual ISA ของมันช่วยให้นักพัฒนาเข้าถึงการควบคุมระดับล่างได้โดยไม่ต้องเจอกับความซับซ้อนในการเขียนโปรแกรมบน GPU
ปรัชญาการออกแบบของ FuriosaAI นั้นมองว่า GPU ดั้งเดิมต้องแบก "ภาระจากอดีต" จากต้นกำเนิดด้านกราฟิก สถาปัตยกรรมแบบ SIMT (Single Instruction, Multiple Threads) ในมุมมองของพวกเขา ไม่เหมาะกับรูปแบบการเข้าถึงหน่วยความจำที่ไม่สม่ำเสมอซึ่งพบได้ทั่วไปในเวิร์กโหลดการอนุมานของ AI ยุคใหม่ Tensor Contraction Processor (TCP) จึงเป็นสถาปัตยกรรมที่ออกแบบจากศูนย์ โดยให้ความสำคัญกับการย้ายข้อมูลแบนด์วิดท์สูงและการประมวลผลเทนเซอร์ขนาดใหญ่เหนือกว่าการจัดการเทร็ด เพื่อเป้าหมายประสิทธิภาพต่อวัตต์และความหนาแน่นของโทเค็นที่เหนือกว่าในตู้เซิร์ฟเวอร์ที่มีข้อจำกัดด้านพลังงาน
ดีลของ FuriosaAI เป็นเพียงส่วนหนึ่งของกลยุทธ์ชิปแบบสั่งทำพิเศษของ Broadcom ที่กำลังดำเนินไปอย่างกว้างขวาง ในเดือนตุลาคม 2025 บริษัท OpenAI ได้ประกาศความร่วมมือหลายปีกับ Broadcom เพื่อพัฒนาและปรับใช้ชิปเร่งความเร็ว AI และฮาร์ดแวร์เครือข่ายแบบสั่งทำพิเศษขนาดมหึมาถึง 10 กิกะวัตต์ โดยมีแผนใช้งานครั้งแรกในช่วงครึ่งหลังของปี 2026 โดยใช้ทั้งการออกแบบแบบ 3 นาโนเมตรและ 2 นาโนเมตร รายชื่อพันธมิตร ASIC แบบสั่งทำพิเศษของ Broadcom ยังรวมถึง Microsoft, Amazon, Meta และ Google ซึ่งทุกบริษัทล้วนทุ่มงบประมาณหลายพันล้านเพื่อออกแบบชิปสำหรับเวิร์กโหลดเฉพาะของตัวเอง
คลื่นความร่วมมือเหล่านี้สะท้อนให้เห็นถึงการเปลี่ยนแปลงเชิงโครงสร้างในตลาด ข้อมูลจาก TrendForce บริษัทวิจัยชั้นนำ ระบุว่าเซิร์ฟเวอร์ AI ที่ใช้ ASIC จะมีสัดส่วน 27.8% ของการจัดส่งเซิร์ฟเวอร์ AI ทั้งหมดในปี 2026 ซึ่งเป็นจุดสูงสุดในรอบหลายปี และคาดว่าจะเติบโตจนมีสัดส่วนเกือบ 40% ภายในปี 2030 อัตราการเติบโตของชิป AI แบบสั่งทำนั้นน่าจับตามอง ข้อมูลจาก TrendForce แสดงให้เห็นว่าการจัดส่งชิป AI แบบสั่งทำจากผู้ให้บริการคลาวด์จะเติบโตถึง 44.6% ในปี 2026 ซึ่งเร็วกว่าอัตราเติบโตของ GPU ที่คาดการณ์ไว้ที่ 16.1% เกือบสามเท่า
ขณะที่ Nvidia ยังคงครองส่วนแบ่งตลาดชิป AI อยู่ประมาณ 70% แต่คาดว่าส่วนแบ่งนี้จะลดลงเมื่อผู้ให้บริการคลาวด์รายใหญ่หันไปใช้ซิลิคอนแบบสั่งทำที่ให้ประสิทธิภาพดีกว่าสำหรับชุดซอฟต์แวร์เฉพาะของตัวเอง แพลตฟอร์มของ FuriosaAI และ Broadcom จึงเป็นการเข้าสู่กระแสนี้โดยตรง ด้วยความพยายามที่จะก้าวกระโดดจากการ์ดอนุมาน 180W ที่ผ่านการตรวจสอบแล้วไปสู่ระบบ 2 นาโนเมตรที่ใช้โครงข่ายอีเทอร์เน็ต ซึ่งออกแบบมาเพื่อศูนย์ข้อมูลขนาดใหญ่ที่สุดในโลก
Comments
0 comments