L'IPW est d'une simplicité élégante : elle divise la précision qu'un modèle atteint sur une tâche donnée par la puissance qu'il consomme lors de l'inférence . Cela contraste avec la pratique courante qui consiste à évaluer les modèles d'IA isolément, en ignorant le coût énergétique et les exigences matérielles.
La métrique capture une idée clé : le modèle le plus capable n'est pas nécessairement le plus efficace ou le plus pratique. Un petit modèle fonctionnant sur un ordinateur portable peut fournir 95% de la précision d'un modèle cloud géant tout en utilisant une fraction de l'énergie .
L'une des conclusions les plus significatives sur le plan financier de l'étude concerne ce qui se produit lorsque l'on ne choisit pas entre le local et le cloud, mais qu'on les utilise intelligemment.
Le routage oracle, un système théorique parfait qui attribue chaque requête au plus petit modèle capable, pourrait théoriquement réduire la consommation d'énergie de 80,4%, le calcul de 77,3% et le coût de 73,8% par rapport à un déploiement exclusivement cloud .
Un routeur pratique et réaliste testé dans le cadre de recherches connexes a obtenu des résultats similaires : il a réduit l'énergie de 77,1%, le calcul de 67,1% et le coût de 60,2% par rapport aux distributions de trafic réelles, tout en maintenant une précision comparable des tâches .
Ce n'est pas une possibilité futuriste. La recherche démontre que les architectures hybrides locales-cloud sont déjà viables et peuvent réduire considérablement le coût de la fourniture d'inférences d'IA.
L'étude de Stanford ne formule pas de prévisions financières explicites pour une entreprise particulière. Cependant, la trajectoire qu'elle documente a des implications structurelles claires pour les entreprises d'IA dépendantes des API cloud .
Les modèles locaux couvrent déjà environ 89% des requêtes à un seul tour à un coût considérablement réduit . L'IPW s'est améliorée de 5,3 fois en seulement deux ans et continue de s'accélérer
. Un routage intelligent pourrait réduire les coûts d'inférence cloud de 60% ou plus pour les requêtes restantes envoyées vers le cloud
.
Si cette tendance se concrétise à grande échelle, les clients pourraient remplacer la majorité de leurs requêtes API cloud par une inférence locale à coût quasi nul, réservant les appels cloud aux environ 11% des tâches les plus difficiles que les modèles locaux ne peuvent pas encore traiter .
Les commentaires interprétant l'étude ont noté que l'avenir de l'IA pourrait être fait de modèles « petits, bon marché et non rentables » pour les entreprises d'IA de pointe . L'incitation économique se déplace vers des alternatives locales et à poids ouvert qui sous-cotent les tarifs des API cloud — une dynamique qui pourrait remodeler les modèles économiques d'entreprises comme OpenAI, Anthropic et xAI.
Cette étude n'est qu'un point de données dans une tendance plus large. Le rapport AI Index 2025 du Stanford HAI a révélé que le coût d'inférence pour un système fonctionnant au niveau du GPT-3.5 a chuté de plus de 280 fois entre novembre 2022 et octobre 2024 . Au niveau matériel, les coûts ont baissé de 30% par an tandis que l'efficacité énergétique s'est améliorée de 40% chaque année
.
Les modèles à poids ouvert comblent également l'écart avec les modèles fermés, réduisant la différence de performance de 8% à seulement 1,7% sur certains benchmarks en une seule année .
Bien que les résultats soient impressionnants, il est important de noter le périmètre de l'étude. Elle ne teste que les requêtes à un seul tour — des réponses de chat simples et des tâches de raisonnement autonomes. Elle n'évalue pas les modèles locaux sur les conversations à plusieurs tours, le raisonnement sur des contextes longs, ou les flux de travail agentiques complexes, tous des domaines où les modèles cloud conservent un avantage significatif .
Les modèles locaux testés (≤20 milliards de paramètres) ne peuvent pas non plus égaler les meilleurs modèles cloud sur les problèmes les plus difficiles. Les auteurs de l'étude sont clairs à ce sujet : la précision varie considérablement selon le domaine, et le chiffre de 88,7% masque des performances plus faibles dans les domaines techniques et scientifiques .
L'étude de Stanford sur l'« Intelligence par Watt » fournit des preuves empiriques solides que l'IA locale a franchi un seuil critique. Pour la majorité des requêtes quotidiennes — tâches créatives, gestion, ventes, divertissement — un petit modèle sur un ordinateur portable est déjà suffisant . Le rythme rapide des améliorations suggère que cette couverture ne fera que s'étendre.
Pour les entreprises, l'implication est claire : l'infrastructure d'IA la plus rentable est de plus en plus une infrastructure hybride, qui achemine les requêtes simples vers des modèles locaux et réserve la capacité cloud pour les tâches les plus difficiles. L'ère de l'envoi de chaque requête à un modèle cloud massif moyennant des frais par jeton pourrait bien toucher à sa fin.
Comments
0 comments