这次合作之所以有别于传统的ASIC设计订单,关键在于其宏大的范围。FuriosaAI和博通不仅仅要设计一颗更快的芯片,而是要构建一个统一的、机架级的推理平台,旨在解决超大规模AI数据中心的系统性瓶颈 。
博通半导体解决方案集团总裁Charlie Kawwas从系统级性能的角度阐述了此次合作:"推理性能不再仅仅由原始算力定义……通过将Furiosa的TCP架构与博通市场领先的XPU技术和IP平台、以太网纵向扩展及交换芯片相结合,我们正在打造一个能解决大规模Agentic AI关键瓶颈的平台" 。该系统采用了all-to-all网络拓扑结构,以应对专家混合模型(MoE)这类模型所需的复杂通信模式
。
FuriosaAI是带着已经过市场验证的商业化芯片进入这次合作的。其第二代芯片RNGD(芯片代号"叛徒")已在台积电的5nm工艺上实现量产 。RNGD是一款功耗为180W的PCIe加速卡,可提供512 TFLOPS的FP8性能,配备48GB HBM3内存和1.5 TB/s的带宽。虽然其峰值算力仅为英伟达B200的大约1/9,但其功耗也只有后者的约1/5
。
RNGD已获得韩国主要企业的验证,包括三星SDS和LG AI研究院。其中,LG正在其RNGD硬件上运行自家的Exaone模型家族 。这种商业上的成功,为这家初创公司进军全球超大规模市场奠定了坚实的基础。
一个核心差异化优势是FuriosaAI的软件栈。该公司的SDK使用通用编译器,能直接将PyTorch代码映射到其芯片上,绕过了手动编写CUDA内核的复杂过程。其虚拟ISA(指令集架构)为开发者提供了底层控制能力,却没有GPU编程的复杂性 。
FuriosaAI的设计哲学是,传统GPU从诞生之初就背负着源自图形处理的"历史包袱"。该公司认为,GPU的SIMT(单指令多线程)架构难以高效处理现代AI推理中常见的不规则内存访问模式。而其**张量收缩处理器(TCP)**则是一个从零开始设计的全新架构,优先考虑高带宽数据移动和超大规模张量运算,而非线程管理,目标是在功耗受限的数据中心机架中实现更卓越的每瓦性能和Token吞吐密度 。
与FuriosaAI的合作,只是博通庞大定制化芯片战略中的最新一环。
市场研究机构TrendForce的数据清晰地揭示了这一趋势:
FuriosaAI与博通的平台,正是对这一趋势的直接回应。它尝试从一块经过验证的180W推理卡,跨越式地发展到一个为世界最大数据中心设计的、基于2nm和以太网络互联的机架级系统,直接切入定制化AI芯片增长最快的赛道。
Comments
0 comments