如果你还在用每秒生成多少“token”来衡量AI芯片的优劣,那可能已经跟不上时代的脚步了。2026年6月12日,知名AI性能分析机构Artificial Analysis发布了业界首个专门针对AI智能体(Agent)工作负载的硬件基准测试——AA-AgentPerf的处女跑成绩。结果显示,英伟达最新一代的Blackwell Ultra GB300 NVL72平台,以一种近乎“降维打击”的姿态,在所有实测平台上夺魁,其在特定能效指标上相对上一代Hopper架构的优势达到了惊人的20倍
。
这是否意味着,在即将到来的“智能体AI”时代,算力军备竞赛的规则已被悄然改写?
新基准,测什么?——从“聊天”到“干活”的跨越
传统的AI推理基准测试,如MLPerf,主要衡量模型在收到单一指令后生成回复的速度。但AA-AgentPerf模拟的场景要复杂得多,它拷问的是硬件在真实世界智能体应用中的表现
。
具体来说,AgentPerf测量的是在满足特定的服务等级协议(SLO),即输出token速度和首token延迟(TTFT)要求的前提下,一套推理系统能够同时支持多少个AI编程智能体(Coding Agent)
。这些智能体的工作轨迹并非凭空想象,而是从公开代码库中提取的真实流程,跨越了12种以上的编程语言。它们的工作流涉及多轮大语言模型(LLM)调用、带有模拟CPU延迟的工具调用,以及不断膨胀的上下文窗口。最终结果会按单个加速器和每兆瓦功耗进行标准化,以公平反映性能和能效
。
简单理解,之前我们比的是“谁答得快”,现在AgentPerf比的是“谁能同时招呼更多能写代码、会干活的AI员工,并且保证每个员工的工作效率不掉队”。
英伟达的“成绩单”:20倍能效奇迹
在AgentPerf的首轮测试中,所有平台都运行了DeepSeek V4 Pro,一个足以代表当前最前沿智能体AI能力的大型混合专家(MoE)模型。英伟达的 GB300 NVL72 平台交出了以下答卷
:
Comments
0 comments