此合作案之所以與傳統的客製化晶片(ASIC)設計案不同,關鍵在於其規模與野心。FuriosaAI 與博通要打造的不只是更快的晶片,而是一個統一、可直接部署的機櫃級(rack-scale)推論平台,從根本上解決超大規模 AI 資料中心可能遇到的系統級瓶頸 。
博通半導體解決方案事業群總裁 Charlie Kawwas 以系統級效能的角度說明這項合作,他表示:「推論效能的定義不再僅限於原始運算能力……透過將 Furiosa 的 TCP 架構與博通領先市場的 XPU 技術 IP 平台、乙太網路擴展及光纖交換器結合,我們正在為大規模代理式 AI 最核心的瓶頸問題,打造解決平台」 。此系統所採用的拓樸(topology)具備全對全(all-to-all)的傳輸能力,旨在從容應對混合專家模型(Mixture-of-Experts,MoE)這類複雜的通訊模式
。
FuriosaAI 帶著已獲商業驗證的晶片技術,踏進這場合作。其第二代晶片「RNGD」已在台積電(TSMC)的 5 奈米製程上進入量產階段 。RNGD 是一款功耗為 180W 的 PCIe 介面卡,可提供 512 teraFLOPS 的 FP8 效能,配備 48GB 的 HBM3 記憶體與 1.5 TB/s 的頻寬。雖然這大約只達到 Nvidia B200 峰值運算能力的九分之一,但功耗僅為其五分之一左右
。
RNGD 已獲得包含三星 SDS 與 LG 人工智慧研究院在內等多間韓國大企業的驗證,其中 LG 更是在 RNGD 硬體上運行自家的 Exaone 模型系列 。這份商業實績,為這家新創公司提供了進軍全球超大規模市場時不可或缺的可信基礎。
FuriosaAI 的核心差異化,來自其軟體堆疊。該公司的軟體開發套件(SDK)採用通用編譯器,能將 PyTorch 程式碼直接對應到自家的晶片上,不須再仰賴手動調校的 CUDA 核心(kernel)。其所提供的虛擬指令集架構(Virtual ISA),更讓開發者在不需接觸 GPU 程式設計複雜性的情況下,就能達成低階控制 。
FuriosaAI 的設計哲學認為,傳統 GPU 因源自圖形處理而背負了「歷史包袱」。他們主張 GPU 的 SIMT(單指令多執行緒)架構,在處理現代 AI 推論的非常規記憶體存取模式時力有未逮。因此,其張量收縮處理器(TCP)是一套從零開始設計的全新架構,將高頻寬資料傳輸與大規模張量運算置於執行緒管理之上,以在電力受限的資料中心機櫃中,追求更優異的每瓦效能與 token 產出密度 。
FuriosaAI 的這筆交易,是博通一盤廣闊客製化晶片大棋中的最新一步。2025 年 10 月,OpenAI 宣布與博通建立多年合作關係,要共同開發並部署高達 10 GW(百萬瓩)規模的客製化 AI 加速器與網路硬體,預計在 2026 年下半年進行首批部署,使用 3 奈米與 2 奈米設計 。博通的客製化 ASIC 合作夥伴名單還包括了微軟(Microsoft)、亞馬遜(Amazon)、Meta 和谷歌(Google),這些公司無不投入數十億美元,為自家獨特的 AI 工作負載設計訂製晶片
。
這波合作浪潮反映的是市場的根本結構性轉變。根據研調機構集邦科技(TrendForce)的數據,ASIC 架構的 AI 伺服器預計在 2026 年將佔全球 AI 伺服器總出貨量的 27.8%,創下近年新高,並預測到 2030 年該比例將成長至近四成 。客製化 AI 晶片的成長速度更是驚人:數據顯示,來自雲端服務供應商的客製化 AI 晶片出貨量在 2026 年預計將成長 44.6%,幾乎是通用型 GPU 所預估的 16.1% 成長率的三倍
。
雖然 Nvidia 目前仍掌握約七成的 AI 晶片市場,但隨著超大規模雲端服務商轉向能為其獨特軟體堆疊提供更高效能的客製化晶片,這個市佔率預計將會逐步下滑 。FuriosaAI 與博通的這個平台,正是這股趨勢中的一記直接出手,企圖從一張經過驗證的 180W 推論介面卡,一舉躍進到專為全球最大資料中心設計、以 2 奈米製程和乙太網路結構為基礎的完整系統。
Comments
0 comments