通用计算与编译性能
Phoronix 获取了 Vera 系统并进行了包括代码编译、Python 性能、Java 负载等在内的测试,Vera 在所有评估的配置项中均击败了单/双路 Intel Xeon Granite Rapids 6980P 及 AMD EPYC 都灵/都灵密集(Turin Dense)型号 。
值得注意的不确定性
尽管上述成绩亮眼,但我们仍需保持审慎:截至目前,NVIDIA 并未公布 Vera 的制程节点、时钟频率、TDP(热设计功耗)及公开定价。在缺少 SPEC CPU 2017/2026 和 MLPerf 这类行业标杆数据的情况下,我们只能判断 Vera 是一头专为 AI 工厂打造的“性能猛兽”,但其在通用服务器负载中的能效和普适性仍有待验证 。
Vera 之所以能实现如此悬殊的领先,源于其对现代数据中心负载——尤其是在多租户、大内存带宽的 AI 推理和强化学习场景——的极端重构。
这并非 Arm 公版设计,而是英伟达第一款全自研的数据中心 CPU 核心,基于 Armv9.2 指令集。它采用了 10-wide 的指令提取与解码前端,并集成了神经分支预测器(相当于用 AI 来优化 AI 负载),实现了相比前代 1.5 倍的每时钟周期指令数(IPC)提升 。
与 AMD 和 Intel 动辄十几个 Chiplet(小芯片)拼接不同,Vera 的 88 颗核心集成在单一单体(Monolithic)计算晶片上,彻底消除了多芯互联所带来的 NUMA(非统一内存访问)延迟惩罚。这意味着在任何负载下,核心间的通信延迟都是最低且一致的 。
Vera 通过 1024-bit 接口连接八颗 LPDDR5X SOCAMM 内存模组,实现了高达 1.2 TB/s 的恐怖带宽,并支持单路 1.5 TB 的容量扩展。换算下来,每颗核心分到的带宽约 14 GB/s,这是传统 x86 数据中心 CPU 核心带宽的大约 3 倍。作为对比,AMD 旗舰级 EPYC 9965 的每路带宽约为 614 GB/s 。
Vera 并非孤立作战。通过第二代 NVLink-C2C 互连,它能以 1.8 TB/s 的带宽与英伟达自家的 Rubin GPU 紧密耦合,在 Vera Rubin NVL72 这样的机柜级系统中,构建出高达 22 TB/s 的连贯内存访问架构。这是 x86 生态目前无法触及的 GPU-CPU 协同效率 。
Vera 的出现不仅是技术路线的胜利,更是一次英伟达对数据中心 CPU 市场的终极宣战,而战果已经初现。
2026 年 5 月,英伟达副总裁 Ian Buck 亲自驱车前往加州各家客户的办公室,向 **Anthropic(旧金山)、OpenAI(使命湾)、SpaceXAI(帕洛阿托)和 Oracle Cloud Infrastructure ** 亲手交付了首批 Vera CPU 系统。这极具象征意义的一趟送货之旅,标志着数据中心 CPU 正式进入“英伟达节奏” 。
Vera 的战略并非在传统服务器市场与至强、EPYC 正面肉搏,而是被定位为 “AI 代理编排器”。它专长于处理强化学习、代理型 AI 沙盒执行和推理协调——一个长期以来由 x86 双雄把持的核心战场。随着 Vera 的投产,数据中心市场的游戏规则正在被改写 。
Comments
0 comments