IPW er elegant enkel: den deler nøyaktigheten en modell oppnår på en gitt oppgave på strømmen den forbruker under inferens . Dette står i kontrast til den vanlige praksisen med å evaluere KI-modeller isolert, uten å ta hensyn til energikostnader og maskinvarekrav.
Måleenheten fanger opp en sentral innsikt: den mest kapable modellen er ikke nødvendigvis den mest effektive eller praktiske. En liten modell som kjører på en bærbar PC, kan levere 95 % av nøyaktigheten til en diger skymodell samtidig som den bruker en brøkdel av energien .
Et av studiens mest økonomisk betydningsfulle funn gjelder hva som skjer når man ikke velger mellom lokalt og sky – men bruker begge deler intelligent.
Oracle-ruting, et hypotetisk perfekt system som tildeler hver spørring til den minste kapable modellen, kunne teoretisk redusere energiforbruket med 80,4 %, beregningskraften med 77,3 % og kostnadene med 73,8 % sammenlignet med en sky-only-distribusjon .
En praktisk, realistisk ruter testet i relatert forskning oppnådde lignende resultater: den reduserte energi med 77,1 %, beregningskraft med 67,1 % og kostnader med 60,2 % over virkelige trafikkdistribusjoner, samtidig som den opprettholdt sammenlignbar oppgavenøyaktighet .
Dette er ikke en futuristisk mulighet. Forskningen viser at hybride lokal-sky-arkitekturer allerede er levedyktige og dramatisk kan senke kostnadene ved å levere KI-inferens.
Stanford-studien kommer ikke med eksplisitte økonomiske spådommer for noe selskap. Imidlertid har banen den dokumenterer, klare og strukturelle implikasjoner for sky-API-avhengige KI-selskaper .
Lokale modeller dekker allerede omtrent 89 % av enkeltstående spørringer til dramatisk lavere kostnad . IPW har forbedret seg 5,3 ganger på bare to år og fortsetter å akselerere
. Smart ruting kan kutte kostnadene for skyinferens med 60 % eller mer for de gjenværende spørringene som sendes til skyen
.
Hvis denne trenden blir operasjonalisert i stor skala, kan kunder erstatte majoriteten av sine sky-API-spørringer med nesten gratis lokal inferens, og bare reservere skyanrop for de vanskeligste ~11 % av oppgavene som lokale modeller ennå ikke kan håndtere .
Kommentarer som tolker studien, har bemerket at fremtiden for KI kan inneholde 'små, billige og ulønnsomme' modeller for grensesprengende KI-selskaper . Det økonomiske insentivet skifter mot lokale, åpne vekter-alternativer som underbyr sky-API-prising – en dynamikk som kan omforme forretningsmodellene til selskaper som OpenAI, Anthropic og xAI.
Denne studien er ett datapunkt i en større trend. 2025 AI Index-rapporten fra Stanford HAI fant at inferenskostnaden for et system som presterer på nivå med GPT-3.5, falt over 280 ganger mellom november 2022 og oktober 2024 . På maskinvarenivå har kostnadene sunket med 30 % årlig, mens energieffektiviteten har forbedret seg med 40 % hvert år
.
Modeller med åpne vekter tette også gapet til lukkede modeller, og reduserte ytelsesforskjellen fra 8 % til bare 1,7 % på enkelte benchmarks på ett enkelt år .
Selv om resultatene er imponerende, er det viktig å merke seg omfanget. Studien tester kun enkeltstående spørringer – enkle chattesvar og selvstendige resonneringsoppgaver. Den evaluerer ikke lokale modeller på samtaler med flere runder, langkontekst-resonnering eller komplekse agentiske arbeidsflyter, alle områder hvor skymodeller beholder en betydelig fordel .
De testede lokale modellene (≤20B parametre) kan heller ikke matche de aller beste skymodellene på de vanskeligste problemene. Studiens forfattere er tydelige på dette: nøyaktigheten varierer betydelig etter domene, og 88,7 %-tallet skjuler svakere ytelse i tekniske og vitenskapelige felt .
Stanfords 'Intelligens per Watt'-studie gir sterke empiriske bevis for at lokal KI har krysset en kritisk terskel. For flertallet av hverdagsspørringer – kreative oppgaver, ledelse, salg, underholdning – er en liten modell på en bærbar PC allerede tilstrekkelig . Det raske tempoet i forbedringen tyder på at denne dekningen bare vil utvide seg.
For bedrifter er implikasjonen klar: den mest kostnadseffektive KI-infrastrukturen er i økende grad en hybrid en, som ruter enkle spørringer til lokale modeller og reserverer skykapasitet for de vanskeligste oppgavene. Tiden da hver spørring ble sendt til en massiv skymodell for en per-token-avgift, kan være i ferd med å ebbe ut.
Comments
0 comments