IPW є елегантно простим: він ділить точність, яку модель досягає в певному завданні, на енергію, яку вона споживає під час обчислення . Це контрастує з поширеною практикою оцінювати моделі ШІ ізольовано, ігноруючи енергетичні витрати та вимоги до обладнання.
Метрика фіксує ключове розуміння: найпотужніша модель не обов'язково є найефективнішою або найпрактичнішою. Невелика модель, що працює на ноутбуці, може забезпечити 95% точності гігантської хмарної моделі, споживаючи при цьому лише частку енергії .
Один із найбільш фінансово значущих висновків дослідження стосується того, що відбувається, коли ви не вибираєте між локальним і хмарним ШІ, а використовуєте обидва інтелектуально.
Оракульна маршрутизація — гіпотетична ідеальна система, яка направляє кожен запит найменшій здатній моделі, — теоретично могла б зменшити споживання енергії на 80,4%, обчислювальні потужності на 77,3%, а витрати на 73,8% порівняно з використанням лише хмари .
Практичний реалістичний маршрутизатор, протестований у суміжному дослідженні, досяг подібних результатів: він зменшив споживання енергії на 77,1%, обчислювальні потужності на 67,1%, а витрати на 60,2% у розподілі реального трафіку, зберігаючи при цьому порівнянну точність виконання завдань .
Це не футуристична можливість. Дослідження демонструє, що гібридні локально-хмарні архітектури вже є життєздатними і можуть кардинально знизити вартість обслуговування обчислень ШІ.
Стенфордське дослідження не робить прямих фінансових прогнозів для жодної компанії. Однак задокументована ним траєкторія має чіткі та структурні наслідки для компаній, які залежать від хмарних API .
Локальні моделі вже покривають приблизно 89% одноразових запитів зі значно нижчими витратами . Показник IPW покращився у 5,3 раза всього за два роки і продовжує прискорюватися
. Інтелектуальна маршрутизація може скоротити витрати на хмарні обчислення на 60% або більше для запитів, які все ще надсилаються в хмару
.
Якщо ця тенденція буде впроваджена в масштабі, клієнти зможуть замінити більшість своїх запитів до хмарних API на локальні обчислення з майже нульовою вартістю, залишаючи хмарні виклики лише для найважчих ~11% завдань, які локальні моделі поки що не можуть виконати .
Коментатори, які інтерпретують дослідження, зазначають, що майбутнє ШІ може характеризуватися «маленькими, дешевими та неприбутковими» моделями для провідних компаній ШІ . Економічний стимул зміщується в бік локальних відкритих альтернатив, які підривають ціноутворення хмарних API — динаміка, яка може змінити бізнес-моделі таких компаній, як OpenAI, Anthropic та xAI.
Це дослідження є одним із свідчень більшої тенденції. Звіт AI Index Report 2025 від Стенфордського інституту HAI показав, що вартість обчислень для системи рівня GPT-3.5 впала більш ніж у 280 разів за період з листопада 2022 по жовтень 2024 року . На рівні апаратного забезпечення витрати знижуються на 30% щорічно, тоді як енергоефективність покращується на 40% щороку
.
Моделі з відкритою вагою також скорочують розрив із закритими моделями, зменшивши різницю в продуктивності з 8% до 1,7% на деяких тестах лише за один рік .
Хоча результати вражають, важливо зазначити сферу дослідження. Воно тестує лише одноразові запити — прості відповіді в чаті та самодостатні завдання на логіку. Воно не оцінює локальні моделі в багатоходових розмовах, завданнях з довгим контекстом або складних агентних робочих процесах — сферах, де хмарні моделі зберігають значну перевагу .
Протестовані локальні моделі (≤20 млрд параметрів) також не можуть зрівнятися з найкращими хмарними моделями у вирішенні найскладніших проблем. Автори дослідження чітко заявляють про це: точність значно варіюється залежно від сфери, і показник 88,7% маскує слабшу продуктивність у технічних та наукових галузях .
Стенфордське дослідження «Інтелект на ват» надає вагомі емпіричні докази того, що локальний ШІ перетнув критичний поріг. Для більшості повсякденних запитів — творчих завдань, управління, продажів, розваг — невеликої моделі на ноутбуці вже достатньо . Швидкі темпи вдосконалення свідчать про те, що це охоплення лише розширюватиметься.
Для бізнесу висновок очевидний: найбільш економічно ефективною інфраструктурою ШІ стає гібридна, яка направляє прості запити локальним моделям і резервує хмарні потужності для найскладніших завдань. Епоха відправлення кожного запиту до масивної хмарної моделі за плату за токен, можливо, добігає кінця.
Comments
0 comments