Gemini 3.1 Pro oppnådde 77,1% – en ledende score på denne testen som måler genuin problemløsning der modeller ikke kan lære seg svarene på forhånd .
Claude Sonnet fikk 9,8/10 i en test med 125 virkelige oppgaver der kvalitet og menneskelig tone ble vurdert. Dette gjør den til modellen som føles best å bruke for samtale og skriving .
Avstanden mellom toppmodellene (GPT-5, Claude Opus 4.x, Gemini 3.x, Grok 4) er nå svært liten – ofte bare noen få prosentpoeng . Stanfords AI Index Report 2026 fant at de 15 beste modellene bare skiller seg med så lite som 3 prosentpoeng på hver test
.
«Nøyaktighet» avhenger sterkt av oppgaven: den beste kodemodellen er ikke den beste på resonnering, og den mest nøyaktige modellen på tester er kanskje ikke den beste for din arbeidsflyt. Det riktige valget avhenger helt av hva du skal bruke den til .
Comments
0 comments