IPW on tyylikkään yksinkertainen: se jakaa mallin saavuttaman tarkkuuden tietyssä tehtävässä sen päätelyn aikana kuluttamalla teholla . Tämä on vastakohta yleiselle käytännölle, jossa tekoälymalleja arvioidaan erillään, jättäen huomiotta energiakustannukset ja laitteistovaatimukset.
Mittari kiteyttää keskeisen oivalluksen: kyvykkäin malli ei välttämättä ole tehokkain tai käytännöllisin. Pieni malli, joka toimii kannettavassa tietokoneessa, saattaa tarjota 95 prosenttia jättimäisen pilvimallin tarkkuudesta käyttäen vain murto-osan energiasta .
Yksi tutkimuksen taloudellisesti merkittävimmistä löydöistä koskee tilannetta, jossa ei valita paikallisen ja pilven välillä, vaan käytetään molempia älykkäästi.
Oracle-reititys – hypoteettinen täydellinen järjestelmä, joka ohjaa jokaisen kyselyn pienimmälle kykenevälle mallille – voisi teoriassa vähentää energiankulutusta 80,4 prosenttia, laskentatehoa 77,3 prosenttia ja kustannuksia 73,8 prosenttia verrattuna pelkkään pilvipohjaiseen käyttöönottoon .
Käytännöllinen, realistinen reititin, jota testattiin tutkimuksen yhteydessä, saavutti samankaltaisia tuloksia: se vähensi energiaa 77,1 prosenttia, laskentatehoa 67,1 prosenttia ja kustannuksia 60,2 prosenttia todellisilla liikennejakaumilla säilyttäen samalla vertailukelpoisen tehtävätarkkuuden .
Tämä ei ole futuristinen mahdollisuus. Tutkimus osoittaa, että hybridi paikallinen-pilvi -arkkitehtuurit ovat jo elinkelpoisia ja voivat dramaattisesti alentaa tekoälypäätelmien tarjoamisen kustannuksia.
Stanfordin tutkimus ei tee nimenomaisia taloudellisia ennusteita millekään yritykselle. Sen dokumentoima kehityskulku on kuitenkin rakenteellisesti merkittävä pilvi-API-riippuvaisille tekoälyyrityksille .
Paikalliset mallit kattavat jo noin 89 prosenttia yksittäisistä kyselyistä huomattavasti alhaisemmilla kustannuksilla . IPW on parantunut 5,3-kertaisesti vain kahdessa vuodessa ja paranee edelleen
. Älykäs reititys voisi vähentää pilvipohjaisten päätelmien kustannuksia 60 prosenttia tai enemmän jäljellä olevissa pilveen lähetetyissä kyselyissä
.
Jos tämä suuntaus operationalisoidaan laajassa mittakaavassa, asiakkaat voisivat korvata suurimman osan pilvi-API-kyselyistään lähes nollakustannuksisilla paikallisilla päätelmillä, jättäen pilvikutsut vain vaikeimmille noin 11 prosentille tehtävistä, joita paikalliset mallit eivät vielä pysty hoitamaan .
Tutkimusta tulkitsevassa kommentaarissa on todettu, että tekoälyn tulevaisuus saattaa sisältää 'pieniä, halpoja ja kannattamattomia' malleja huippuyrityksille . Taloudellinen kannustin siirtyy kohti paikallisia, avoimen painon vaihtoehtoja, jotka alittavat pilvi-API-hinnoittelun – dynamiikka, joka voi muokata uudelleen OpenAI:n, Anthropicin ja xAI:n kaltaisten yritysten liiketoimintamalleja.
Tämä tutkimus on yksi datapiste laajemmassa trendissä. Stanford HAI:n vuoden 2025 tekoälyindeksiraportti osoittaa, että GPT-3.5-tasoisen järjestelmän päätelmäkustannukset laskivat yli 280-kertaisesti marraskuun 2022 ja lokakuun 2024 välillä . Laitteistotasolla kustannukset ovat laskeneet 30 prosenttia vuodessa, kun taas energiatehokkuus on parantunut 40 prosenttia vuodessa
.
Avoimen painon mallit kuromat umpeen eroa suljettuihin malleihin, vähentäen suorituskykyeron 8 prosentista vain 1,7 prosenttiin joissakin vertailuissa yhdessä vuodessa .
Vaikka tulokset ovat vaikuttavia, on tärkeää huomioida tutkimuksen laajuus. Se testaa vain yksittäisiä kyselyitä – yksinkertaisia chat-vastauksia ja itsenäisiä päättelytehtäviä. Se ei arvioi paikallisia malleja monivaiheisissa keskusteluissa, pitkässä kontekstissa tapahtuvassa päättelyssä tai monimutkaisissa agenttimaisissa työnkuluissa – kaikilla alueilla, joilla pilvimallit säilyttävät merkittävän edun .
Testatut paikalliset mallit (≤20B parametria) eivät myöskään pysty vastaamaan parhaita pilvimalleja vaikeimmissa ongelmissa. Tutkimuksen tekijät ovat selkeitä tästä: tarkkuus vaihtelee merkittävästi aihealueittain, ja 88,7 prosentin luku peittää alleen heikomman suorituskyvyn teknisillä ja tieteellisillä aloilla .
Stanfordin 'älykkyys wattia kohden' -tutkimus tarjoaa vahvaa empiiristä näyttöä siitä, että paikallinen tekoäly on ylittänyt kriittisen kynnyksen. Suurimmalle osalle jokapäiväisistä kyselyistä – luovat tehtävät, hallinto, myynti, viihde – pieni malli kannettavassa tietokoneessa on jo riittävä . Nopea parantumistahti viittaa siihen, että tämä kattavuus vain laajenee.
Yrityksille viesti on selvä: kustannustehokkain tekoälyinfrastruktuuri on yhä enemmän hybridi, joka ohjaa yksinkertaiset kyselyt paikallisille malleille ja varaa pilvikapasiteetin vaikeimmille tehtäville. Aikakausi, jolloin jokainen kysely lähetetään massiiviselle pilvimallille token-maksua vastaan, saattaa olla päättymässä.
Comments
0 comments