IPW의 개념은 간단합니다. 모델이 특정 작업에서 달성한 정확도를 추론 중 소비한 전력으로 나누는 것입니다 . 이는 일반적인 AI 모델 평가 방식(에너지 비용과 하드웨어 요구 사항을 무시하고 모델 자체만 평가)과는 대조적입니다.
이 지표는 핵심적인 통찰력을 제공합니다. 즉, 가장 뛰어난 모델이 반드시 가장 효율적이거나 실용적인 모델은 아니라는 것입니다. 노트북에서 실행되는 소형 모델이 거대한 클라우드 모델 정확도의 95%를 달성하면서도 극히 일부의 에너지만 사용할 수 있습니다 .
이 연구에서 재정적으로 가장 중요한 발견 중 하나는 로컬과 클라우드를 선택하는 대신, 두 가지를 지능적으로 함께 사용할 때의 결과입니다.
각 질문을 처리 가능한 가장 작은 모델에 할당하는 가상의 완벽한 시스템인 **오라클 라우팅(Oracle routing)**은 클라우드 전용 배포에 비해 에너지 소비를 80.4%, 컴퓨팅 자원을 77.3%, 비용을 73.8%까지 절감할 수 있습니다 .
관련 연구에서 테스트된 실제적인 라우터는 유사한 결과를 달성했습니다. 실제 트래픽 분포에서 에너지 77.1%, 컴퓨팅 67.1%, 비용을 60.2% 절감하면서도 비슷한 작업 정확도를 유지했습니다 .
이것은 미래의 가능성이 아닙니다. 연구는 하이브리드 로컬-클라우드 아키텍처가 이미 실행 가능하며 AI 추론 서비스 비용을 극적으로 낮출 수 있음을 증명합니다.
스탠퍼드 연구는 어떤 기업에 대한 명시적인 재정적 예측을 하지 않습니다. 그러나 연구가 문서화한 추세는 클라우드 API에 의존하는 AI 기업들에게 명확하고 구조적인 시사점을 제공합니다 .
로컬 모델은 이미 단일 턴 질문의 약 89%를 훨씬 낮은 비용으로 처리합니다 . IPW는 단 2년 만에 5.3배 향상되었으며 계속 가속화되고 있습니다
. 스마트 라우팅은 클라우드로 보내는 나머지 질문에 대해 클라우드 추론 비용을 60% 이상 절감할 수 있습니다
.
이러한 추세가 대규모로 실제 운영에 적용된다면, 고객들은 클라우드 API 질문의 대부분을 거의 비용이 들지 않는 로컬 추론으로 대체하고, 로컬 모델이 아직 처리할 수 없는 가장 어려운 약 11%의 작업에 대해서만 클라우드 호출을 사용할 수 있습니다 .
연구를 해석하는 일부 논평은 AI의 미래가 프런티어 AI 기업들에게 '작고, 저렴하며, 수익성이 없는' 모델의 시대가 될 수 있다고 지적합니다 . 경제적 인센티브는 클라우드 API 가격을 낮추는 로컬 및 오픈 웨이트(open-weight) 대안으로 이동하고 있으며, 이는 OpenAI, Anthropic, xAI와 같은 기업들의 비즈니스 모델을 재편할 수 있는 역동성입니다.
이 연구는 더 큰 추세 속의 하나의 데이터 포인트입니다. 스탠퍼드 HAI의 2025 AI 지수 보고서(2025 AI Index Report)에 따르면, GPT-3.5 수준의 성능을 내는 시스템의 추론 비용은 2022년 11월부터 2024년 10월 사이에 280배 이상 하락했습니다 . 하드웨어 수준에서는 비용이 매년 30%씩 감소하고 에너지 효율은 매년 40%씩 개선되고 있습니다
.
결과는 인상적이지만, 그 범위를 주목하는 것이 중요합니다. 이 연구는 단일 턴 쿼리(간단한 채팅 응답 및 독립적인 추론 작업)만 테스트했습니다. 여러 차례의 대화, 긴 맥락 추론 또는 복잡한 에이전트 워크플로우와 같은 분야에서는 평가하지 않았으며, 이러한 영역에서는 클라우드 모델이 여전히 상당한 이점을 가지고 있습니다 .
테스트된 로컬 모델(≤200억 파라미터)은 가장 어려운 문제에서 최고의 클라우드 모델을 따라잡을 수 없습니다. 연구 저자들은 이 점을 분명히 밝히고 있습니다. 정확도는 분야에 따라 크게 다르며, 88.7%라는 수치는 기술 및 과학 분야에서의 더 낮은 성능을 가리고 있습니다 .
스탠퍼드의 'Intelligence Per Watt' 연구는 로컬 AI가 중요한 임계점을 넘었음을 강력한 실증적 증거로 보여줍니다. 일상적인 대부분의 질문(창의적 작업, 관리, 영업, 엔터테인먼트)에 대해 노트북의 소형 모델로도 이미 충분합니다 . 빠른 개선 속도는 이러한 커버리지가 계속 확장될 것임을 시사합니다.
기업에게 시사점은 분명합니다. 가장 비용 효율적인 AI 인프라는 점점 더 하이브리드 방식이 될 것입니다. 즉, 간단한 질문은 로컬 모델로 라우팅하고, 가장 어려운 작업을 위해서만 클라우드 용량을 예약하는 것입니다. 모든 질문을 토큰당 요금을 내고 거대한 클라우드 모델에 보내는 시대는 막을 내리고 있을지도 모릅니다.
Comments
0 comments