Her er hovedfunnene fra de første publiserte resultatene av Artificial Analysis sin AA-AgentPerf-benchmark, kunngjort 12. juni 2026.
Hva AgentPerf faktisk måler
AA-AgentPerf er bransjens aller første åpne maskinvarebenchmark som er skreddersydd for agentiske AI-inferensarbeidsbelastninger – altså ikke enkle spørsmål-svar-runder, men komplekse, flertrinnsprosesser slik vi ser i autonome AI-agenter
.
Testen måler nøyaktig hvor mange samtidige AI-kodingsagenter et inferenssystem kan drifte, samtidig som det oppfyller definerte servicemål (SLO-er) for hastighet på produserte ord og tid-til-første-ord (TTFT). Selve benchmarken er bygget på ekte kjørespor fra kodingsagenter – hentet fra offentlige kodelagre på over 12 programmeringsspråk – som kjeder sammen flere LLM-kall, bruk av verktøy (simulert med representative CPU-forsinkelser) og voksende kontekstvinduer
. Resultatene normaliseres per akselerator og per megawatt, slik at man får et reelt bilde av både kraft og effektivitet
.
Nvidias knusende resultater
Når støvet la seg etter den første testrunden, var det liten tvil om hvem som ledet an:
- Nvidia GB300 NVL72 (Blackwell Ultra) leverte suverent høyest ytelse blant alle testede plattformer på arbeidsbelastningen med DeepSeek V4 Pro, en stor «mixture-of-experts»-modell (MoE) som regnes som representativ for dagens mest avanserte agentiske AI
.
Comments
0 comments