IPW элегантно прост: он делит точность, достигнутую моделью на конкретной задаче, на мощность, потребленную во время инференса . Это контрастирует с обычной практикой оценки моделей ИИ изолированно, игнорируя энергозатраты и требования к оборудованию.
Метрика отражает ключевую идею: самая производительная модель не обязательно самая эффективная или практичная. Небольшая модель, работающая на ноутбуке, может обеспечить 95% точности гигантской облачной модели, используя при этом лишь часть энергии .
Один из самых значимых с финансовой точки зрения выводов исследования касается того, что происходит, когда вы не выбираете между локальным и облачным «железом», а используете и то, и другое с умом.
«Оракул-маршрутизация» (Oracle routing) — гипотетическая идеальная система, назначающая каждый запрос самой маленькой подходящей модели — теоретически могла бы снизить энергопотребление на 80,4%, объем вычислений на 77,3% и затраты на 73,8% по сравнению с полностью облачным развертыванием .
Практический реалистичный маршрутизатор, протестированный в смежных исследованиях, достиг схожих результатов: он снизил энергопотребление на 77,1%, объем вычислений на 67,1% и затраты на 60,2% для реальных распределений трафика, сохранив при этом сопоставимую точность .
Это не футуристическая возможность. Исследование доказывает, что гибридные локально-облачные архитектуры уже жизнеспособны и могут кардинально снизить стоимость обслуживания ИИ-инференса.
Стэнфордское исследование не делает прямых финансовых прогнозов для какой-либо компании. Однако траектория, которую оно документирует, имеет четкие и структурные последствия для компаний, чей бизнес зависит от облачных API .
Локальные модели уже охватывают примерно 89% одношаговых запросов при значительно более низкой стоимости . IPW улучшился в 5,3 раза всего за два года и продолжает ускоряться
. Умная маршрутизация может сократить затраты на облачный инференс на 60% или более для оставшихся запросов, отправляемых в облако
.
Если эта тенденция будет реализована в масштабе, клиенты смогут заменить большинство своих запросов к облачным API на почти нулевой по стоимости локальный инференс, оставляя облачные вызовы только для самых сложных ~11% задач, с которыми локальные модели пока не справляются .
Комментаторы, интерпретирующие исследование, отметили, что будущее ИИ может быть за «маленькими, дешевыми и неприбыльными» моделями для передовых ИИ-компаний . Экономический стимул смещается в сторону локальных альтернатив с открытым весом, которые подрывают ценообразование облачных API — динамика, способная изменить бизнес-модели таких компаний, как OpenAI, Anthropic и xAI.
Это исследование — лишь одна точка данных в более крупном тренде. Отчет об индексе ИИ за 2025 год от Стэнфордского HAI показал, что стоимость инференса для системы, работающей на уровне GPT-3.5, упала более чем в 280 раз в период с ноября 2022 года по октябрь 2024 года . На уровне «железа» затраты снижаются на 30% ежегодно, а энергоэффективность улучшается на 40% каждый год
.
Модели с открытым весом также сокращают разрыв с закрытыми моделями, уменьшив разницу в производительности с 8% до всего 1,7% по некоторым бенчмаркам всего за один год .
Хотя результаты впечатляют, важно отметить область применения. Исследование тестирует только одношаговые запросы — простые ответы в чате и автономные задачи на рассуждение. Оно не оценивает локальные модели в многопоточных диалогах, задачах с длинным контекстом или сложных агентских рабочих процессах — все это области, где облачные модели сохраняют значительное преимущество .
Протестированные локальные модели (≤20B параметров) также не могут сравниться с лучшими облачными моделями в самых сложных задачах. Авторы исследования четко говорят об этом: точность значительно варьируется в зависимости от области, и показатель 88,7% скрывает более слабую производительность в технических и научных областях .
Стэнфордское исследование «Интеллект на ватт» предоставляет убедительные эмпирические доказательства того, что локальный ИИ пересек критический порог. Для большинства повседневных запросов — творческих задач, управления, продаж, развлечений — небольшой модели на ноутбуке уже достаточно . Быстрые темпы улучшения предполагают, что этот охват будет только расширяться.
Для бизнеса вывод очевиден: наиболее экономически эффективная ИИ-инфраструктура становится все более гибридной, направляя простые запросы к локальным моделям, а облачные мощности резервируя для самых сложных задач. Эпоха отправки каждого запроса к массивной облачной модели с оплатой за токен, возможно, подходит к концу.
Comments
0 comments