Tässä ovat keskeiset löydökset Artificial Analysisin AA-AgentPerf-testin ensimmäisistä julkisista tuloksista, jotka julkistettiin 12. kesäkuuta 2026.
Mitä AgentPerf mittaa
AA-AgentPerf on alan ensimmäinen avoin, monien laitevalmistajien välinen laitteistotesti, joka on suunniteltu erityisesti agenttimaiselle tekoälyn päättelylle – ei yksittäisille chat-keskustelujen vastauksille
. Käytännössä se siis testaa tekoälyn kykyä toimia itsenäisenä agenttina, esimerkiksi ohjelmoijana, joka suorittaa monivaiheisia tehtäviä.
Testissä mitataan, kuinka monta samanaikaista tekoälyn koodausagenttia järjestelmä pystyy pyörittämään ja samalla täyttämään tietyt palvelutasotavoitteet (SLO) tulostusnopeudelle (tokenia sekunnissa) ja vasteajalle (aika ensimmäiseen tokeniin, TTFT). Vertailu perustuu todellisiin koodausagenttien toimintahistorioihin, jotka on kerätty julkisista lähdekoodivarastoista yli 12 eri ohjelmointikielellä. Nämä tehtäväketjut yhdistelevät useita kielimallikutsuja, työkalukutsuja (joita simuloidaan realistisilla suorittimen viiveillä) ja jatkuvasti kasvavia konteksti-ikkunoita
. Tulokset ilmoitetaan suhteutettuna jokaista laskentakiihdytintä (GPU) ja kulutettua megawattia kohden
.
Nvidian tulokset
Nvidian uusi lippulaiva suoriutui testistä poikkeuksellisen vahvasti:
- Nvidian GB300 NVL72 (Blackwell Ultra) tarjosi parasta suorituskykyä kaikista testatuista alustoista DeepSeek V4 Pro -mallin työkuormassa. Kyseinen malli on suuri asiantuntijasekoitusmalli (MoE), joka edustaa huipputason agenttitekoälyä
.
Comments
0 comments