Den 12. juni 2026 løftede analysefirmaet Artificial Analysis sløret for de første resultater fra deres nye benchmark, AA-AgentPerf. Testen er skabt til en ny virkelighed, hvor AI ikke bare svarer på spørgsmål, men handler som en agent – og her viser Nvidias nyeste hardware sig at være i en klasse for sig.
Hvad er AA-AgentPerf for en størrelse?
Traditionelle AI-benchmarks har typisk fokuseret på enkelte, isolerede forespørgsler. AgentPerf er derimod branchens første åbne, multi-vendor hardware-benchmark designet specifikt til agentiske AI-inferensopgaver
. Det betyder, at den simulerer de komplekse arbejdsgange, som en moderne AI-agent udfører: En opgave kan kræve flere opkald til en stor sprogmodel, brug af værktøjer (simuleret med realistiske CPU-forsinkelser) og en kontekst, der vokser for hvert trin
.
Dataene er hentet fra ægte kodningsopgaver i offentligt tilgængelige repositories og dækker over 12 programmeringssprog
. Resultatet er en test, der måler, hvor mange samtidige agenter et system kan håndtere, mens det stadig lever op til et defineret serviceniveau (SLO) for output-hastighed (tokens per sekund) og tid-til-første-token (TTFT). Ydelsen normaliseres per accelerator og per megawatt for at give et retvisende effektivitetsbillede
.
Nvidias resultater: En ny virkelighed for datacentre
I testen blev platformene målt på deres evne til at køre , en stor "mixture-of-experts" (MoE) model, der repræsenterer den type avancerede modeller, som driver nutidens mest kapable agenter . Her tegnede der sig et klart billede:
Comments
0 comments