IPW sangat mudah: ia membahagikan ketepatan yang dicapai model pada sesuatu tugasan dengan kuasa yang digunakannya semasa inferens . Ini berbeza dengan amalan biasa menilai model AI secara berasingan, mengabaikan kos tenaga dan keperluan perkakasan.
Metrik ini menangkap satu pandangan penting: model yang paling berkemampuan belum tentu yang paling cekap atau praktikal. Model kecil yang berjalan pada komputer riba mungkin memberikan 95% ketepatan model awan gergasi sementara menggunakan sebahagian kecil tenaga .
Salah satu penemuan kajian yang paling signifikan dari segi kewangan adalah mengenai apa yang berlaku apabila anda tidak memilih antara tempatan dan awan — tetapi menggunakan kedua-duanya secara pintar.
Penghalaan Oracle, satu sistem sempurna hipotetikal yang menetapkan setiap pertanyaan kepada model terkecil yang berkemampuan, secara teori boleh mengurangkan penggunaan tenaga sebanyak 80.4%, pengiraan sebanyak 77.3%, dan kos sebanyak 73.8% berbanding penggunaan awan semata-mata .
Penghala realistik yang diuji dalam penyelidikan berkaitan mencapai keputusan serupa: ia mengurangkan tenaga sebanyak 77.1%, pengiraan sebanyak 67.1%, dan kos sebanyak 60.2% merentasi taburan trafik dunia sebenar, sambil mengekalkan ketepatan tugasan yang setanding .
Ini bukan kemungkinan futuristik. Penyelidikan menunjukkan bahawa seni bina hibrid tempatan-awan sudah berdaya maju dan boleh menurunkan kos perkhidmatan inferens AI secara drastik.
Kajian Stanford tidak membuat ramalan kewangan eksplisit untuk mana-mana syarikat. Walau bagaimanapun, trajektori yang didokumenkannya mempunyai implikasi yang jelas dan struktur untuk syarikat AI yang bergantung kepada API awan .
Model tempatan sudah meliputi kira-kira 89% pertanyaan sekali lalu pada kos yang jauh lebih rendah . IPW telah meningkat 5.3× dalam masa dua tahun sahaja dan terus memecut
. Penghalaan pintar boleh mengurangkan kos inferens awan sebanyak 60% atau lebih untuk baki pertanyaan yang dihantar ke awan
.
Jika trend ini menjadi operasional pada skala besar, pelanggan boleh menggantikan majoriti pertanyaan API awan mereka dengan inferens tempatan yang hampir tanpa kos, menempah panggilan awan hanya untuk kira-kira 11% tugasan paling sukar yang belum mampu dikendalikan model tempatan .
Komentar yang mentafsir kajian ini menyatakan bahawa masa depan AI mungkin menampilkan model 'kecil, murah dan tidak menguntungkan' untuk syarikat AI sempadan . Insentif ekonomi beralih ke arah alternatif tempatan berwajaran terbuka yang menawarkan harga lebih rendah daripada API awan — satu dinamik yang boleh membentuk semula model perniagaan syarikat seperti OpenAI, Anthropic, dan xAI.
Kajian ini adalah satu titik data dalam trend yang lebih besar. Laporan Indeks AI 2025 dari Stanford HAI mendapati kos inferens untuk sistem yang berprestasi pada tahap GPT-3.5 menjunam lebih 280 kali ganda antara November 2022 dan Oktober 2024 . Di peringkat perkakasan, kos telah menurun sebanyak 30% setiap tahun sementara kecekapan tenaga telah bertambah baik sebanyak 40% setiap tahun
.
Model berwajaran terbuka juga semakin rapat dengan model tertutup, mengurangkan perbezaan prestasi daripada 8% kepada hanya 1.7% pada beberapa penanda aras dalam satu tahun sahaja .
Walaupun keputusannya mengagumkan, penting untuk mengambil perhatian skopnya. Kajian ini hanya menguji pertanyaan sekali lalu — respons sembang ringkas dan tugasan penaakulan kendiri. Ia tidak menilai model tempatan pada perbualan berbilang pusingan, penaakulan konteks panjang, atau aliran kerja agen yang kompleks, semua bidang di mana model awan masih mempunyai kelebihan ketara .
Model tempatan yang diuji (≤20B parameter) juga tidak dapat menandingi model awan terbaik pada masalah paling sukar. Pengarang kajian jelas tentang perkara ini: ketepatan berbeza dengan ketara mengikut domain, dan angka 88.7% menutup prestasi yang lebih lemah dalam bidang teknikal dan saintifik .
Kajian 'Intelligence Per Watt' Stanford menyediakan bukti empirikal yang kukuh bahawa AI tempatan telah melintasi ambang kritikal. Untuk majoriti pertanyaan harian — tugasan kreatif, pengurusan, jualan, hiburan — model kecil pada komputer riba sudah memadai . Kepantasan penambahbaikan yang pesat menunjukkan liputan ini akan terus berkembang.
Untuk perniagaan, implikasinya jelas: infrastruktur AI yang paling kos efektif semakin menjadi hibrid, menghalakan pertanyaan mudah ke model tempatan dan menempah kapasiti awan untuk tugasan paling sukar. Era menghantar setiap pertanyaan ke model awan gergasi dengan bayaran per token mungkin akan berakhir.
Comments
0 comments