今次合作同一般ASIC設計委託最唔同嘅地方,就係個格局完全唔同層次。FuriosaAI同Broadcom唔係淨係整一粒更快嘅晶片,而係要砌一個統一嘅機櫃級推斷平台,一次過解決超大規模AI數據中心嘅系統級瓶頸 。
Broadcom半導體解決方案集團總裁Charlie Kawwas講到明,呢個合作嘅焦點係系統級性能:「推斷性能已經唔再係單靠原始運算能力嚟定義……我哋將Furiosa嘅TCP架構,配搭Broadcom領先市場嘅XPU技術同IP平台、Ethernet擴展同網絡架構交換器,打造一個針對大規模代理式AI關鍵瓶頸嘅平台」 。系統仲內置咗「全互聯」(all-to-all)拓撲能力,專門應付「專家混合模型」(Mixture-of-Experts, MoE)嗰類複雜嘅通訊模式
。
FuriosaAI唔係空手埋枱傾偈,而係帶住已經量產嘅商用晶片嚟嘅。佢哋第二代晶片叫RNGD,已經喺台積電5納米製程上量產 。RNGD係一張熱設計功耗(TDP)180W嘅PCIe卡,提供512 teraFLOPS嘅FP8性能,配備48GB HBM3記憶體同1.5 TB/s頻寬。雖然峰值運算能力大約只係Nvidia B200嘅九分之一,但功耗只係佢嘅五分之一左右
。
RNGD已經通過咗韓國大企業嘅驗證,包括三星SDS同LG AI Research,LG仲已經用緊呢款硬件運行佢哋嘅Exaone模型家族 。呢啲商業實績為FuriosaAI進軍全球超大規模市場嘅第三代平台,打下咗紮實嘅信譽基礎。
FuriosaAI另一個核心差異化優勢係軟件。佢哋嘅SDK用嘅係通用編譯器,識得自動將PyTorch程式碼直接映射到自家晶片上面,唔使再用CUDA呢類需要手動調校嘅程式碼。佢嘅「虛擬指令集架構」(Virtual ISA)畀開發人員有接近底層嘅控制權,但又唔使搞GPU編程嗰套複雜嘢 。
FuriosaAI嘅設計哲學係,傳統GPU孭住由圖像處理根源帶嚟嘅「 legacy稅」。佢哋認為,GPU嘅單指令多線程(SIMT)架構喺處理現代AI推斷常見嘅不規則記憶體存取模式時,表現好唔理想。而FuriosaAI嘅Tensor Contraction Processor(TCP) 係一張白紙由頭設計嘅架構,將高頻寬數據移動同大規模張量運算擺喺首位,多過線程管理,目標係喺受功耗限制嘅數據中心機櫃入面,實現更優異嘅每瓦性能同token密度 。
FuriosaAI呢單deal,只係Broadcom整個客製化晶片大戰略嘅最新一步。2025年10月,OpenAI就宣布同Broadcom達成一項多年合作,共同開發同部署**10吉瓦(gigawatts)**咁誇張規模嘅客製化AI加速器同網絡硬件,第一批部署目標係2026年下半年,會同時用到3納米同2納米設計 。Broadcom嘅客製化ASIC合作夥伴名單仲包括微軟、亞馬遜、Meta同Google,全部都係擲緊幾十億美金去設計專為自己AI工作負載而設嘅晶片
。
呢一波合作浪潮,反映緊市場一個結構性轉變。根據研究機構TrendForce嘅數據,ASIC架構嘅AI伺服器預計喺2026年會佔到整體AI伺服器出貨量嘅27.8%,創近年新高,到2030年仲會進一步攀升到近40% 。客製化AI晶片嘅增長速度更加有說服力:TrendForce數據顯示,雲端供應商嘅客製化AI晶片出貨量喺2026年會增長44.6%,差唔多係通用GPU預測增長率(16.1%)嘅三倍
。
雖然Nvidia仍然佔據咗大約70%嘅AI晶片市場,但隨住超大規模客戶轉向能夠為佢哋獨特軟件堆疊提供更高效率嘅客製化晶片,呢個份額預期會逐步被蠶食 。FuriosaAI同Broadcom嘅平台正正就係衝住呢個趨勢嚟,嘗試由一張經過市場驗證嘅180W推斷卡,一舉躍升到一個2納米製程、以Ethernet網絡架構為基礎、專為全球最大型數據中心而設嘅系統,直接挑戰GPU嘅霸主地位。
Comments
0 comments