IPW er elegant enkel: den dividerer den nøjagtighed, en model opnår på en given opgave, med den strøm, den bruger under inferens . Dette står i kontrast til den almindelige praksis med at evaluere AI-modeller isoleret set, hvor man ignorerer energiomkostningerne og hardwarekravene.
Metrikken indfanger en central indsigt: den mest kapable model er ikke nødvendigvis den mest effektive eller praktiske. En lille model, der kører på en laptop, kan levere 95 % af nøjagtigheden fra en kæmpe cloud-model, mens den bruger en brøkdel af energien .
Et af studiets mest økonomisk betydningsfulde resultater vedrører, hvad der sker, når man ikke vælger mellem lokalt og cloud – men bruger begge dele intelligent.
Oracle-routing, et hypotetisk perfekt system, der tildeler hver forespørgsel til den mindste egnede model, kunne teoretisk set reducere energiforbruget med 80,4 %, beregningskraften med 77,3 % og omkostningerne med 73,8 % sammenlignet med en ren cloud-implementering .
En praktisk, realistisk router testet i relateret forskning opnåede lignende resultater: den reducerede energien med 77,1 %, beregningskraften med 67,1 % og omkostningerne med 60,2 % i forhold til virkelige trafikfordelinger, alt imens den opretholdt sammenlignelig opgavenøjagtighed .
Dette er ikke en futuristisk mulighed. Forskningen viser, at hybride lokal-cloud-arkitekturer allerede er levedygtige og dramatisk kan sænke omkostningerne ved at levere AI-inferens.
Stanford-studiet kommer ikke med eksplicitte økonomiske forudsigelser for nogen virksomhed. Den udvikling, det dokumenterer, har dog klare og strukturelle implikationer for virksomheder, der er afhængige af cloud-API'er .
Lokale modeller dækker allerede cirka 89 % af enkeltstående forespørgsler til en dramatisk lavere pris . IPW er forbedret 5,3 gange på blot to år og fortsætter med at accelerere
. Smart routing kunne skære cloud-inferensomkostningerne med 60 % eller mere for de resterende forespørgsler, der sendes til skyen
.
Hvis denne tendens bliver operationaliseret i stor skala, kunne kunder erstatte størstedelen af deres cloud-API-forespørgsler med næsten omkostningsfri lokal inferens og kun reservere cloud-kald til de sværeste cirka 11 % af opgaverne, som lokale modeller endnu ikke kan håndtere .
Kommentarer, der fortolker studiet, har bemærket, at fremtiden for AI kan byde på 'små, billige og urentable' modeller for frontløber-AI-virksomheder . Det økonomiske incitament skifter mod lokale, open-weight-alternativer, der underbyder cloud-API-priserne – en dynamik, der kunne omforme forretningsmodellerne for virksomheder som OpenAI, Anthropic og xAI.
Dette studie er ét datapunkt i en større tendens. Stanford HAI's '2025 AI Index Report' viste, at inferensomkostningerne for et system, der præsterer på niveau med GPT-3.5, faldt over 280 gange mellem november 2022 og oktober 2024 . På hardwaresiden er omkostningerne faldet med 30 % årligt, mens energieffektiviteten er forbedret med 40 % hvert år
.
Open-weight-modeller er også ved at indhente de lukkede modeller og reducerede præstationsforskellen fra 8 % til blot 1,7 % på nogle benchmarks på et enkelt år .
Selvom resultaterne er imponerende, er det vigtigt at bemærke studiets omfang. Det tester kun enkeltstående forespørgsler – simple chat-svar og selvstændige ræsonneringsopgaver. Det evaluerer ikke lokale modeller på samtaler med flere omgange, lang kontekstræsonnering eller komplekse agentiske arbejdsgange – alle områder, hvor cloud-modeller har en betydelig fordel .
De testede lokale modeller (≤20 mia. parametre) kan heller ikke matche de allerbedste cloud-modeller på de sværeste problemer. Studiets forfattere er klare omkring dette: nøjagtigheden varierer betydeligt efter domæne, og tallet på 88,7 % skjuler svagere præstationer inden for tekniske og videnskabelige områder .
Stanfords 'Intelligence Per Watt'-studie giver stærke empiriske beviser for, at lokal AI har krydset en kritisk tærskel. For størstedelen af hverdagens forespørgsler – kreative opgaver, ledelse, salg, underholdning – er en lille model på en laptop allerede tilstrækkelig . Det hurtige tempo af forbedringer tyder på, at denne dækning kun vil udvide sig.
For virksomheder er implikationen klar: den mest omkostningseffektive AI-infrastruktur er i stigende grad en hybrid en, der ruter simple forespørgsler til lokale modeller og reserverer cloud-kapacitet til de sværeste opgaver. Tiden, hvor hver eneste forespørgsel blev sendt til en massiv cloud-model mod et gebyr per token, er måske ved at være forbi.
Comments
0 comments