인공지능 분석(Artificial Analysis)이 2026년 6월 12일 첫 결과를 공개한 AA-AgentPerf(에이전트-퍼프) 벤치마크에서 엔비디아의 차세대 플랫폼인 블랙웰 울트라(Blackwell Ultra)가 압도적인 성능을 기록했습니다. 이는 단순한 챗봇 성능 테스트를 넘어, 현실 세계의 복잡한 ‘에이전트 AI’ 작업 부하를 측정하는 첫 번째 개방형 벤치마크라는 점에서 큰 의미를 갖습니다
.
에이전트퍼프가 측정하는 것은 무엇인가
AA-AgentPerf는 단발성 채팅 완성이 아닌, ‘에이전트 AI 추론’ 작업 부하를 위해 특별히 설계된 업계 최초의 개방형 멀티 벤더 하드웨어 벤치마크입니다
. 이 테스트는 하나의 추론 시스템이 정해진 서비스 수준 목표(SLO)를 충족하면서 동시에 얼마나 많은 AI 코딩 에이전트를 지원할 수 있는지를 측정합니다. 여기서 SLO는 출력 토큰 속도와 첫 토큰 도달 시간(TTFT)을 기준으로 합니다.
기존 챗봇 테스트와 달리, 이 벤치마크는 12개 이상의 프로그래밍 언어로 된 공개 저장소에서 가져온 실제 코딩 에이전트의 궤적을 재현합니다. 이 과정에서 여러 번의 LLM 호출, CPU 지연이 시뮬레이션된 도구 호출, 그리고 점점 늘어나는 컨텍스트 윈도우를 연결하여 테스트함으로써 현실의 에이전트 작업과 유사한 환경을 만듭니다. 모든 결과는 가속기당, 그리고 메가와트(MW)당 정규화되어 발표됩니다
.
엔비디아가 거둔 성과
이번 첫 발표에서 엔비디아는 특히 DeepSeek V4 Pro 모델을 구동하는 작업에서 눈에 띄는 성과를 보였습니다. DeepSeek V4 Pro는 최첨단 에이전트 AI를 대표하는 대형 혼합 전문가(MoE) 모델입니다.
- 최고 성능 달성: 엔비디아 GB300 NVL72 (블랙웰 울트라)는 테스트된 모든 플랫폼 중에서 가장 높은 성능을 기록했습니다
.
- 에너지 효율의 혁신: 동일한 전력을 사용할 때, 이전 세대인 엔비디아 HGX H200 (호퍼) 시스템보다 메가와트당 최대 20배 더 많은 동시 에이전트를 실행할 수 있었습니다. 이는 초당 20토큰 및 60토큰 SLO 등급 모두에서 동일하게 나타난 결과입니다
.
Comments
0 comments