IPW är elegant enkelt: det dividerar noggrannheten en modell uppnår på en given uppgift med den ström den förbrukar under inferens . Detta står i kontrast till den vanliga praxisen att utvärdera AI-modeller isolerat, utan att ta hänsyn till energikostnad och hårdvarukrav.
Måttet fångar en central insikt: den mest kapabla modellen är inte nödvändigtvis den mest effektiva eller praktiska. En liten modell som körs på en bärbar dator kan leverera 95 % av noggrannheten hos en enorm molnmodell samtidigt som den använder en bråkdel av energin .
En av studiens mest finansiellt betydelsefulla resultat handlar om vad som händer när man inte väljer mellan lokalt och moln – utan använder båda intelligent.
Oracle routing, ett hypotetiskt perfekt system som tilldelar varje fråga till den minsta kapabla modellen, skulle teoretiskt kunna minska energiförbrukningen med 80,4 %, beräkningskraften med 77,3 % och kostnaden med 73,8 % jämfört med en molnbaserad installation .
En praktisk, realistisk router som testats i relaterad forskning uppnådde liknande resultat: den minskade energin med 77,1 %, beräkningskraften med 67,1 % och kostnaden med 60,2 % över verkliga trafikdistributioner, samtidigt som jämförbar uppgiftsnoggrannhet bibehölls .
Detta är ingen futuristisk möjlighet. Forskningen visar att hybrida lokal-moln-arkitekturer redan är livskraftiga och dramatiskt kan sänka kostnaden för att leverera AI-inferens.
Stanford-studien gör inga explicita finansiella förutsägelser för något företag. Den bana den dokumenterar har dock tydliga och strukturella implikationer för moln-API-beroende AI-företag .
Lokala modeller täcker redan cirka 89 % av enkla frågor till en dramatiskt lägre kostnad . IPW har förbättrats 5,3 gånger på bara två år och fortsätter att accelerera
. Smart dirigering skulle kunna minska molninferenskostnaderna med 60 % eller mer för de återstående frågor som skickas till molnet
.
Om denna trend operationaliseras i stor skala skulle kunder kunna ersätta majoriteten av sina moln-API-frågor med lokalinferens till nästan noll kostnad, och endast använda molnet för de svåraste cirka 11 % av uppgifterna som lokala modeller ännu inte kan hantera .
Kommentarer som tolkar studien har noterat att framtiden för AI kan innebära ”små, billiga och olönsamma” modeller för ledande AI-företag . Det ekonomiska incitamentet skiftar mot lokala alternativ med öppen vikt som undercuttar moln-API-prissättningen – en dynamik som kan omforma affärsmodellerna för företag som OpenAI, Anthropic och xAI.
Denna studie är en datapunkt i en större trend. 2025 års AI Index-rapport från Stanford HAI fann att inferenskostnaden för ett system som presterar på nivån GPT-3.5 sjönk över 280 gånger mellan november 2022 och oktober 2024 . På hårdvarunivå har kostnaderna minskat med 30 % årligen medan energieffektiviteten har förbättrats med 40 % varje år
.
Modeller med öppen vikt minskar också gapet till stängda modeller och minskar prestationsskillnaden från 8 % till bara 1,7 % på vissa riktmärken på ett enda år .
Även om resultaten är imponerande är det viktigt att notera omfattningen. Studien testar endast enkla frågor (single-turn) – enkla chattresponser och fristående resonemangsuppgifter. Den utvärderar inte lokala modeller på flerstegskonversationer, långa resonemang eller komplexa agentiska arbetsflöden, områden där molnmodeller fortfarande har en betydande fördel .
De testade lokala modellerna (≤20B parametrar) kan inte heller matcha de allra bästa molnmodellerna på de svåraste problemen. Studiens författare är tydliga med detta: noggrannheten varierar avsevärt mellan olika domäner, och siffran 88,7 % döljer sämre prestanda inom tekniska och vetenskapliga fält .
Stanfords ”Intelligence Per Watt”-studie ger starka empiriska bevis för att lokal AI har passerat en kritisk tröskel. För majoriteten av vardagliga frågor – kreativa uppgifter, ledning, försäljning, underhållning – räcker en liten modell på en bärbar dator redan . Den snabba förbättringstakten tyder på att täckningen bara kommer att öka.
För företag är budskapet tydligt: den mest kostnadseffektiva AI-infrastrukturen är i allt högre grad en hybrid, som dirigerar enkla frågor till lokala modeller och reserverar molnkapacitet för de svåraste uppgifterna. Epoken då varje fråga skickades till en enorm molnmodell mot en avgift per token kan vara på väg att ta slut.
Comments
0 comments