IPW formülü oldukça basit: Bir modelin belirli bir görevde elde ettiği doğruluğu, çıkarım (inference) sırasında tükettiği güce bölüyor . Bu, yapay zeka modellerini enerji maliyetini ve donanım gereksinimlerini göz ardı ederek yalnız başına değerlendirme yaygın uygulamasına bir alternatif sunuyor.
Metrik, önemli bir içgörüyü yakalıyor: En yetenekli model, her zaman en verimli veya pratik olan anlamına gelmiyor. Bir dizüstü bilgisayarda çalışan küçük bir model, dev bir bulut modelinin doğruluğunun %95'ini, onun enerjisinin çok küçük bir kısmını kullanarak sağlayabilir .
Çalışmanın finansal açıdan en önemli bulgularından biri, yerel veya bulut arasında seçim yapmadığınızda, ancak her ikisini de akıllıca kullandığınızda ortaya çıkıyor.
Oracle yönlendirme (Oracle routing) olarak adlandırılan, her sorguyu en küçük yetkin modele atayan teorik mükemmel bir sistem, yalnızca bulut tabanlı bir dağıtıma kıyasla enerji tüketimini %80,4, hesaplama yükünü %77,3 ve maliyeti %73,8 oranında azaltabilir .
İlgili araştırmalarda test edilen pratik, gerçekçi bir yönlendirici ise benzer sonuçlar elde etti: Gerçek dünya trafik dağılımlarında enerjiyi %77,1, hesaplama yükünü %67,1 ve maliyeti %60,2 oranında azaltırken, karşılaştırılabilir görev doğruluğunu korudu .
Bu, uzak bir olasılık değil. Araştırma, hibrit yerel-bulut mimarilerinin şimdiden uygulanabilir olduğunu ve yapay zeka çıkarım maliyetlerini önemli ölçüde düşürebileceğini gösteriyor.
Stanford çalışması herhangi bir şirket için açık finansal tahminlerde bulunmuyor. Ancak, belgelediği yörüngenin, bulut API'sine bağımlı yapay zeka şirketleri için açık ve yapısal etkileri var .
Yerel modeller halihazırda tek seferlik sorguların yaklaşık %89'unu önemli ölçüde daha düşük maliyetle karşılıyor . IPW sadece iki yılda 5,3 kat iyileşti ve hızlanarak artmaya devam ediyor
. Akıllı yönlendirme, buluta gönderilen kalan sorgular için bulut çıkarım maliyetlerini %60 veya daha fazla azaltabilir
.
Eğer bu eğilim ölçeklenebilir hale gelirse, müşteriler bulut API sorgularının çoğunluğunu neredeyse sıfır maliyetli yerel çıkarımla değiştirebilir ve bulut çağrılarını yalnızca yerel modellerin henüz işleyemediği en zor ~%11'lik görevler için saklayabilir .
Çalışmayı yorumlayan analistler, öncü yapay zeka şirketleri için geleceğin 'küçük, ucuz ve kârsız' modeller barındırabileceğini belirtti . Ekonomik teşvik, bulut API fiyatlandırmasının altını oyan yerel, açık ağırlıklı alternatiflere doğru kayıyor; bu da OpenAI, Anthropic ve xAI gibi şirketlerin iş modellerini yeniden şekillendirebilecek bir dinamik.
Bu çalışma, daha büyük bir eğilimin sadece bir veri noktası. Stanford HAI'nin 2025 Yapay Zeka Endeksi Raporu, Kasım 2022 ile Ekim 2024 arasında GPT-3.5 seviyesinde performans gösteren bir sistem için çıkarım maliyetinin 280 kattan fazla düştüğünü buldu . Donanım seviyesinde ise maliyetler yıllık %30 oranında azalırken, enerji verimliliği her yıl %40 oranında iyileşti
.
Açık ağırlıklı modeller de kapalı modellerle arasındaki farkı kapatıyor; bazı kıyaslamalarda performans farkı tek bir yılda %8'den sadece %1,7'ye geriledi .
Sonuçlar etkileyici olsa da, çalışmanın kapsamını not etmek önemli. Araştırma yalnızca tek seferlik sorguları test ediyor; basit sohbet yanıtları ve kendi kendine yeten akıl yürütme görevleri. Çok turlu konuşmaları, uzun bağlamlı akıl yürütmeyi veya karmaşık temsilci (agentic) iş akışlarını değerlendirmiyor; tüm bu alanlarda bulut modelleri önemli bir avantaja sahip .
Test edilen yerel modeller (≤20 milyar parametre), en zor problemlerde en iyi bulut modelleriyle de eşleşemiyor. Çalışmanın yazarları bu konuda net: Doğruluk alana göre önemli ölçüde değişiyor ve %88,7'lik oran, teknik ve bilimsel alanlardaki daha zayıf performansı maskeliyor .
Stanford 'Watt Başına Zeka' çalışması, yerel yapay zekanın kritik bir eşiği geçtiğine dair güçlü ampirik kanıtlar sunuyor. Günlük sorguların çoğunluğu için — yaratıcı görevler, yönetim, satış, eğlence — bir dizüstü bilgisayardaki küçük bir model zaten yeterli . Hızlı iyileşme hızı, bu kapsamın daha da genişleyeceğini gösteriyor.
İşletmeler için çıkarım net: En uygun maliyetli yapay zeka altyapısı giderek hibrit hale geliyor; basit sorguları yerel modellere yönlendirip bulut kapasitesini en zor görevler için saklıyor. Her sorguyu token başına ücretlendirilen dev bir bulut modeline gönderme dönemi sona ermekte olabilir.
Comments
0 comments