IPW sederhana secara elegan: metrik ini membagi akurasi yang dicapai model pada tugas tertentu dengan daya yang dikonsumsi selama inferensi . Ini kontras dengan praktik umum mengevaluasi model AI secara terisolasi, mengabaikan biaya energi dan persyaratan perangkat keras.
Metrik ini menangkap wawasan kunci: model yang paling mumpuni belum tentu yang paling efisien atau praktis. Model kecil yang berjalan di laptop bisa memberikan 95% akurasi model cloud raksasa sambil menggunakan energi yang jauh lebih sedikit .
Salah satu temuan studi yang paling signifikan secara finansial menyangkut apa yang terjadi ketika Anda tidak memilih antara lokal dan cloud — tetapi menggunakan keduanya secara cerdas.
Oracle routing, sebuah sistem sempurna hipotetis yang menetapkan setiap pertanyaan ke model terkecil yang mampu, secara teoretis dapat mengurangi konsumsi energi sebesar 80,4%, komputasi sebesar 77,3%, dan biaya sebesar 73,8% dibandingkan dengan penerapan yang hanya mengandalkan cloud .
Router realistis dan praktis yang diuji dalam penelitian terkait mencapai hasil serupa: router ini mengurangi energi sebesar 77,1%, komputasi sebesar 67,1%, dan biaya sebesar 60,2% pada distribusi lalu lintas dunia nyata, sambil mempertahankan akurasi tugas yang sebanding .
Ini bukan kemungkinan futuristik. Penelitian menunjukkan bahwa arsitektur hybrid lokal-cloud sudah layak dan dapat secara dramatis menurunkan biaya penyajian inferensi AI.
Studi Stanford tidak membuat prediksi finansial eksplisit untuk perusahaan mana pun. Namun, lintasan yang didokumentasikannya memiliki implikasi struktural yang jelas bagi perusahaan AI yang bergantung pada API cloud .
Model lokal sudah mencakup sekitar 89% pertanyaan satu putaran dengan biaya yang jauh lebih rendah . IPW telah meningkat 5,3× hanya dalam dua tahun dan terus berakselerasi
. Routing cerdas dapat memangkas biaya inferensi cloud hingga 60% atau lebih untuk pertanyaan-pertanyaan yang tersisa yang dikirim ke cloud
.
Jika tren ini dioperasionalkan dalam skala besar, pelanggan dapat mengganti mayoritas kueri API cloud mereka dengan inferensi lokal yang hampir tanpa biaya, hanya menggunakan panggilan cloud untuk ~11% tugas tersulit yang belum bisa ditangani model lokal .
Komentar yang menafsirkan studi ini mencatat bahwa masa depan AI mungkin menampilkan model yang 'kecil, murah, dan tidak menguntungkan' bagi perusahaan AI terdepan . Insentif ekonomi bergeser ke arah alternatif lokal dengan bobot terbuka yang bisa memotong harga API cloud — sebuah dinamika yang bisa membentuk ulang model bisnis perusahaan seperti OpenAI, Anthropic, dan xAI.
Studi ini adalah satu titik data dalam tren yang lebih besar. Laporan Indeks AI 2025 dari Stanford HAI menemukan bahwa biaya inferensi untuk sistem yang berkinerja setingkat GPT-3.5 turun lebih dari 280 kali lipat antara November 2022 dan Oktober 2024 . Di tingkat perangkat keras, biaya telah menurun sebesar 30% setiap tahun sementara efisiensi energi telah meningkat sebesar 40% setiap tahun
.
Model dengan bobot terbuka juga menutup kesenjangan dengan model tertutup, mengurangi perbedaan kinerja dari 8% menjadi hanya 1,7% pada beberapa tolok ukur dalam satu tahun .
Meskipun hasilnya mengesankan, penting untuk dicatat ruang lingkupnya. Studi ini hanya menguji kueri satu putaran — respons obrolan sederhana dan tugas penalaran mandiri. Studi ini tidak mengevaluasi model lokal pada percakapan multi-putaran, penalaran konteks panjang, atau alur kerja agen yang kompleks, semua area di mana model cloud masih memiliki keunggulan signifikan .
Model lokal yang diuji (≤20 miliar parameter) juga tidak dapat menandingi model cloud terbaik pada masalah-masalah tersulit. Para penulis studi jelas tentang hal ini: akurasi sangat bervariasi menurut domain, dan angka 88,7% menutupi kinerja yang lebih lemah di bidang teknis dan ilmiah .
Studi 'Intelligence Per Watt' dari Stanford menyediakan bukti empiris yang kuat bahwa AI lokal telah melewati ambang kritis. Untuk sebagian besar pertanyaan sehari-hari — tugas kreatif, manajemen, penjualan, hiburan — model kecil di laptop sudah memadai . Laju peningkatan yang pesat menunjukkan cakupan ini hanya akan meluas.
Bagi bisnis, implikasinya jelas: infrastruktur AI yang paling hemat biaya semakin bersifat hybrid, mengarahkan pertanyaan sederhana ke model lokal dan mencadangkan kapasitas cloud untuk tugas-tugas tersulit. Era di mana setiap pertanyaan dikirim ke model cloud besar dengan biaya per token mungkin akan segera berakhir.
Comments
0 comments