IPW is elegant eenvoudig: het deelt de nauwkeurigheid die een model op een bepaalde taak bereikt door het vermogen dat het verbruikt tijdens de inferentie . Dit staat in contrast met de gangbare praktijk om AI-modellen in isolatie te evalueren, waarbij de energiekosten en hardwarevereisten worden genegeerd.
De meeteenheid vat een belangrijk inzicht samen: het meest capabele model is niet noodzakelijkerwijs het meest efficiënte of praktische model. Een klein model op een laptop levert wellicht 95% van de nauwkeurigheid van een reusachtig cloudmodel, maar verbruikt slechts een fractie van de energie .
Een van de financieel meest significante bevindingen van de studie betreft wat er gebeurt als je niet kiest tussen lokaal en de cloud, maar beide intelligent gebruikt.
Orakelroutering, een hypothetisch perfect systeem dat elke vraag naar het kleinste capabele model stuurt, zou theoretisch het energieverbruik met 80,4%, de rekenkracht met 77,3% en de kosten met 73,8% kunnen verminderen in vergelijking met een cloud-only implementatie .
Een praktische, realistische router die in gerelateerd onderzoek is getest, boekte vergelijkbare resultaten: hij verminderde het energieverbruik met 77,1%, de rekenkracht met 67,1% en de kosten met 60,2% bij realistische verkeersverdelingen, terwijl de taaknauwkeurigheid vergelijkbaar bleef .
Dit is geen toekomstmuziek. Het onderzoek toont aan dat hybride lokaal-cloudarchitecturen al levensvatbaar zijn en de kosten voor het leveren van AI-inferenties drastisch kunnen verlagen.
De Stanford-studie doet geen expliciete financiële voorspellingen voor bedrijven. De getrokken lijn heeft echter duidelijke en structurele implicaties voor AI-bedrijven die afhankelijk zijn van cloud-API's .
Lokale modellen dekken al ongeveer 89% van de eenmalige vragen tegen dramatisch lagere kosten . De IPW is in slechts twee jaar tijd 5,3 keer verbeterd en de versnelling houdt aan
. Slimme routering kan de cloudkosten voor de resterende vragen met 60% of meer verlagen
.
Als deze trend op grote schaal wordt doorgevoerd, kunnen klanten het grootste deel van hun cloud-API-aanvragen vervangen door lokale inferentie met bijna nul kosten, en alleen de moeilijkste ~11% van de taken naar de cloud sturen die lokale modellen nog niet aankunnen .
Commentatoren die de studie duiden, merken op dat de toekomst van AI wel eens 'klein, goedkoop en onrendabel' zou kunnen zijn voor toonaangevende AI-bedrijven . De economische prikkel verschuift naar lokale, opengewicht-alternatieven die de cloud-API-prijzen onderbieden — een dynamiek die de verdienmodellen van bedrijven als OpenAI, Anthropic en xAI zou kunnen hervormen.
Deze studie is één datapunt in een grotere trend. Het 2025 AI Index Report van Stanford HAI liet zien dat de inferentiekosten voor een systeem dat presteert op het niveau van GPT-3.5 tussen november 2022 en oktober 2024 meer dan 280 keer zijn gedaald . Op hardwareniveau zijn de kosten jaarlijks met 30% gedaald, terwijl de energie-efficiëntie elk jaar met 40% is verbeterd
.
Ook opengewicht-modellen sluiten de kloof met gesloten modellen; het prestatieverschil daalde van 8% naar slechts 1,7% op sommige benchmarks in slechts een jaar tijd .
Hoewel de resultaten indrukwekkend zijn, is het belangrijk om de reikwijdte in ogenschouw te nemen. De studie test alleen eenmalige vragen — eenvoudige chatreacties en op zichzelf staande redeneertaken. Het evalueert geen lokale modellen op meerstapsgesprekken, langdurige contextredeneringen of complexe agentische workflows, gebieden waar cloudmodellen een aanzienlijk voordeel behouden .
De geteste lokale modellen (≤20 miljard parameters) kunnen ook niet tippen aan de allerbeste cloudmodellen bij de moeilijkste problemen. De auteurs van de studie zijn hier duidelijk over: de nauwkeurigheid varieert aanzienlijk per domein, en het cijfer van 88,7% maskeert zwakkere prestaties in technische en wetenschappelijke vakgebieden .
De Stanford 'Intelligence Per Watt'-studie levert sterk empirisch bewijs dat lokale AI een kritieke drempel heeft overschreden. Voor de meerderheid van de alledaagse vragen — creatieve taken, management, verkoop, entertainment — is een klein model op een laptop al voldoende . Het snelle tempo van verbetering suggereert dat deze dekking alleen maar zal toenemen.
Voor bedrijven is de boodschap duidelijk: de meest kosteneffectieve AI-infrastructuur is steeds vaker een hybride, die eenvoudige vragen naar lokale modellen routeert en cloudcapaciteit reserveert voor de moeilijkste taken. Het tijdperk waarin elke vraag naar een massaal cloudmodel wordt gestuurd tegen een vergoeding per token, lijkt ten einde te lopen.
Comments
0 comments