人工知能が「思考し、行動する」段階へと進化する中、ハードウェアの評価軸もまた変革を迫られています。2026年6月12日、AI分析で知られるArtificial Analysis社が、エージェントAI推論処理に特化した全く新しい業界標準ベンチマーク「AA-AgentPerf」の初回結果を公開しました
。従来のベンチマークが単発の質疑応答の速度を競っていたのに対し、AgentPerfは複雑な指示を自律的に達成するAIエージェントの性能を測るものです。そして、この最初の公開ラウンドで、NVIDIAの次世代プラットフォームが圧倒的な存在感を示しました。
エージェントAIの真価を問う、新指標「AgentPerf」の全貌
従来のAIベンチマークが1問1答形式だったのに対し、AA-AgentPerfは「ツールを使い、試行錯誤しながら複数ステップの作業を自律的に完了するAI」の実力を測定するために設計されました
。具体的には、12以上のプログラミング言語を用いた公開リポジトリから収集された、実際のコーディングエージェントの行動履歴に基づき、複数のLLM呼び出しやAPIツールの利用をともなう複雑なタスクを再現するものです
。
このベンチマークが重視するのは、システムがどれだけ多くの同時接続エージェントを、実用的な速度と応答性を保ちながら処理できるかです。評価は応答生成速度と初回応答までの待ち時間に対して厳格なSLO(サービスレベル目標)を設け、結果を「アクセラレータ(GPU)あたり」および「1メガワットの電力あたり」で正規化。これにより、データセンター事業者が最も関心を持つとされる「電力効率と大規模処理能力」を公平に比較できるようになっています
。
NVIDIA Blackwell Ultraの快挙:前世代比20倍の電力効率
今回、DeepSeek V4 Proという、最前線のエージェントAIを駆動する巨大なMoE(Mixture-of-Experts)モデルを用いたテストで、NVIDIAの「GB300 NVL72 (Blackwell Ultra) ラックスケールシステム」が、他プラットフォームを突き放し最高性能を達成しました
。
特に驚異的なのはその電力効率です。旧世代の「NVIDIA HGX H200 (Hopper)」システムと比較して、1メガワットあたりできることが明らかになりました 。
Comments
0 comments