답변게시됨14시간 전Last edited 13시간 전14 소스

엔비디아, 차세대 '에이전트 AI' 인프라 벤치마크 석권… H200 대비 메가와트당 에이전트 20배 처리

에이전트퍼프(AgentPerf)는 실제 코딩 에이전트의 궤적을 재현해, 단순 챗봇이 아닌 복잡한 에이전트 AI 추론 성능을 측정하는 업계 최초의 벤치마크다 [4]. 엔비디아 GB300 NVL72는 DeepSeek V4 Pro 모델 작업에서 최고 성능을 기록했으며, 이전 세대 H200 대비 메가와트당 최대 20배 많은 동시 에이전트를 처리했다 [4].

Studio Global AI로 검색 및 팩트체크 인기 페이지 더 보기

3.2K0

Nvidia Blackwell Ultra GPU architecture powering agentic AI infrastructure benchmarks — What did Nvidia achieve in the first published results of Artificial Analysis's AgentPerf benchmark, what does this new benchmark measure, aNvidia's Blackwell Ultra architecture is purpose-built for the demanding multi-step reasoning of agentic AI workloads. Image: AI-generated.
AI 프롬프트
Create a landscape editorial hero image for this Studio Global article: What did Nvidia achieve in the first published results of Artificial Analysis's AgentPerf benchmark, what does this new benchmark measure, a. Article summary: Here are the key findings from the first published results of Artificial Analysis's **AA-AgentPerf** benchmark, announced on June 12, 2026.. Topic tags: general, documentation, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "We measure real-world performance of AI accelerator systems during language model inference. ## AA-AgentPerf: The Hardware Benchmark for the Agent Era. AA-AgentPerf has been shaped" source context "AI Hardware Benchmarking & Performance Analysis" Reference image 2: visual subject "For years, co-founder and chief executive officer Jensen Huang and other higher-ups at Nvidia have
openai.com

인공지능 분석(Artificial Analysis)이 2026년 6월 12일 첫 결과를 공개한 AA-AgentPerf(에이전트-퍼프) 벤치마크에서 엔비디아의 차세대 플랫폼인 블랙웰 울트라(Blackwell Ultra)가 압도적인 성능을 기록했습니다. 이는 단순한 챗봇 성능 테스트를 넘어, 현실 세계의 복잡한 ‘에이전트 AI’ 작업 부하를 측정하는 첫 번째 개방형 벤치마크라는 점에서 큰 의미를 갖습니다 .

에이전트퍼프가 측정하는 것은 무엇인가

AA-AgentPerf는 단발성 채팅 완성이 아닌, ‘에이전트 AI 추론’ 작업 부하를 위해 특별히 설계된 업계 최초의 개방형 멀티 벤더 하드웨어 벤치마크입니다 . 이 테스트는 하나의 추론 시스템이 정해진 서비스 수준 목표(SLO)를 충족하면서 동시에 얼마나 많은 AI 코딩 에이전트를 지원할 수 있는지를 측정합니다. 여기서 SLO는 출력 토큰 속도와 첫 토큰 도달 시간(TTFT)을 기준으로 합니다.

기존 챗봇 테스트와 달리, 이 벤치마크는 12개 이상의 프로그래밍 언어로 된 공개 저장소에서 가져온 실제 코딩 에이전트의 궤적을 재현합니다. 이 과정에서 여러 번의 LLM 호출, CPU 지연이 시뮬레이션된 도구 호출, 그리고 점점 늘어나는 컨텍스트 윈도우를 연결하여 테스트함으로써 현실의 에이전트 작업과 유사한 환경을 만듭니다. 모든 결과는 가속기당, 그리고 메가와트(MW)당 정규화되어 발표됩니다 .

엔비디아가 거둔 성과

이번 첫 발표에서 엔비디아는 특히 DeepSeek V4 Pro 모델을 구동하는 작업에서 눈에 띄는 성과를 보였습니다. DeepSeek V4 Pro는 최첨단 에이전트 AI를 대표하는 대형 혼합 전문가(MoE) 모델입니다.

최고 성능 달성: 엔비디아 GB300 NVL72 (블랙웰 울트라)는 테스트된 모든 플랫폼 중에서 가장 높은 성능을 기록했습니다 .
에너지 효율의 혁신: 동일한 전력을 사용할 때, 이전 세대인 엔비디아 HGX H200 (호퍼) 시스템보다 메가와트당 최대 20배 더 많은 동시 에이전트를 실행할 수 있었습니다. 이는 초당 20토큰 및 60토큰 SLO 등급 모두에서 동일하게 나타난 결과입니다 .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

사람들은 또한 묻습니다.