바이두의 ERNIE 5.1은 단순히 “새 AI 모델이 하나 더 나왔다”는 소식으로 보기 어렵다. 더 중요한 지점은 경제성이다. 바이두는 ERNIE 5.1이 ERNIE 5.0의 사전학습 기반을 계승하면서 전체 파라미터를 약 3분의 1로, 활성 파라미터를 약 절반으로 줄였고, 비교 가능한 모델 대비 약 6%의 사전학습 비용만으로 해당 모델 규모에서 선도적 기초 성능을 달성했다고 밝혔다 [7].
이 주장이 주목받는 이유는 분명하다. 최첨단 AI 경쟁이 더 큰 모델, 더 많은 GPU, 더 긴 학습 시간만의 싸움이 아니라 기존 기반을 얼마나 잘 재사용하고, 모델을 얼마나 날렵하게 만들며, 후속 학습을 얼마나 효율적으로 설계하느냐의 싸움으로 이동할 수 있기 때문이다.
핵심은 ‘규모’보다 ‘비용 대비 성능’
이번 발표에서 바이두가 전면에 내세운 메시지는 “더 거대한 ERNIE”가 아니다. 오히려 “줄였는데도 성능을 보존했다”는 쪽에 가깝다. 바이두는 ERNIE 5.1이 파라미터를 압축하면서도 같은 모델 규모에서 선도적 기초 성능을 냈고, 사전학습 비용은 비교 가능한 모델의 약 6% 수준이라고 주장한다 [7].
바이두의 ERNIE 블로그는 또한 ERNIE 5.1이 중국 내 Arena Search에서 1위를 기록했으며, 분리형 완전 비동기 강화학습과 대규모 에이전트형 후속 학습을 통해 에이전트, 추론, 창작 능력을 개선했다고 설명한다 [12]. 여기서 Arena Search는 모델 성능을 비교하는 공개 평가 환경으로 이해하면 된다. 다만 이런 순위가 실제 기업 도입 환경에서의 안정성, 지연시간, 안전성, 운영비까지 모두 증명하는 것은 아니다.
글로벌 AI 경쟁에서 이 발표가 갖는 전략적 의미는 간단하다. 선두권에 가까운 성능을 훨씬 적은 사전학습 비용으로 낼 수 있다면, 경쟁력의 중심은 파라미터 수 그 자체에서 학습 설계, 기반 모델 재사용, 후속 학습 효율로 옮겨갈 수 있다. ERNIE 5.1은 바이두가 바로 그 주장을 공개적으로 내건 사례다.
‘6%’는 어디까지 믿어야 하나
먼저 이 숫자는 좁게 읽어야 한다. 바이두의 6% 주장은 “비교 가능한 모델 대비 사전학습 비용”에 관한 주장이다 [7]. 공개된 자료만으로는 총 개발비, 배포 비용, 추론 단가, 하드웨어 효율, 운영비 전반을 모두 포함한 수치라고 볼 근거가 없다.
또 하나 중요한 단어는 “비교 가능한”이다. 어떤 모델을 기준으로 삼았는지, 어떤 회계 방식과 하드웨어 조건을 적용했는지, 학습 범위를 어디까지 포함했는지가 공개적으로 충분히 드러나지 않았다. 그렇다고 6% 주장이 무의미해지는 것은 아니다. 다만 현재로서는 독립적으로 확정된 업계 표준 수치라기보다, 바이두가 제시한 비용 대비 성능 주장으로 받아들이는 편이 정확하다 [7].
바이두가 말하는 비용 절감 방식
바이두가 제시한 기술적 설명은 크게 네 갈래로 정리할 수 있다.
-
ERNIE 5.0의 기반을 재사용했다. 바이두는 ERNIE 5.1이 완전히 새로 처음부터 학습된 별도 기반 모델이라기보다 ERNIE 5.0의 사전학습 기반을 계승한다고 설명한다 [
7].
-
모델의 몸집을 줄였다. 공식 발표에 따르면 ERNIE 5.1은 전체 파라미터를 약 3분의 1로, 활성 파라미터를 약 절반으로 압축하면서도 해당 모델 규모에서 선도적 성능을 유지했다고 한다 [
7].
-
탄력적 모델 패밀리 학습을 활용했다. ERNIE 5.0 기술 보고서는 한 번의 사전학습으로 용량과 효율이 서로 다른 여러 모델을 만들 수 있는 탄력적 학습 패러다임을 설명한다. 이 방식은 학습 과정에서 깊이, 너비, 라우팅 희소성이 다른 하위 모델을 동적으로 샘플링하고, 하위 모델이 전체 모델의 지식을 이어받아 이후 후속 학습 단계에서 활용될 수 있게 한다 [
1].
-
에이전트·추론 능력을 후속 학습으로 강화했다. 바이두는 ERNIE 5.1이 분리형 완전 비동기 강화학습과 대규모 에이전트형 후속 학습을 바탕으로 에이전트, 추론, 창작 능력 전반을 개선했다고 주장한다 [
12].
종합하면 바이두의 메시지는 “더 크게 만들어서 이겼다”가 아니다. ERNIE 5.0식 기반에서 더 효율적인 구성을 뽑아내고, 이후 후속 학습으로 능력을 보강했다는 설명에 가깝다 [7][
1][
12].
파라미터를 줄였다는 말의 의미
AI 모델에서 전체 파라미터는 모델이 가진 전체 용량 또는 발자국을 뜻한다. 활성 파라미터는 실제 계산 과정에서 쓰이는 부분을 가리킨다. 바이두는 ERNIE 5.1에서 두 지표를 모두 줄였다고 밝혔기 때문에, 이번 발표는 성능만큼이나 효율성에 초점이 맞춰져 있다 [7].
이 대목이 중요한 이유는 AI 산업의 비용 구조와 맞닿아 있기 때문이다. 강한 기반 모델을 물려받고, 학습하거나 활성화해야 하는 모델 규모를 줄이고, 그래도 충분한 성능을 낼 수 있다면 경쟁의 무게중심은 원시적인 규모 확장보다 비용 대비 성능 공학으로 이동한다.
아직 증명되지 않은 부분
가장 큰 쟁점은 검증이다. 현재 인용된 공개 자료는 6% 수치의 근거가 되는 전체 학습 예산, 하드웨어 구성, 데이터 혼합, 학습 기간, 가속기 활용률, 후속 학습 비용, 정확한 비교 대상 모델을 충분히 공개하지 않는다. 따라서 이 숫자는 바이두가 보고한 주장으로 읽어야지, 독립적으로 확립된 업계 벤치마크로 단정하기는 어렵다 [7].
공개 리더보드도 만능 답안은 아니다. 리더보드는 모델 품질의 신호가 될 수 있지만, 실제 서비스나 기업 환경에서의 신뢰성, 안전성, 응답 지연, 총운영비를 모두 증명하지는 못한다. ERNIE 5.1에 대해 현재 가장 단단하게 말할 수 있는 결론은 더 좁다. 바이두가 효율성, 사전학습 기반의 재사용, 특화된 후속 학습을 자사 모델 전략의 핵심으로 공개적으로 내세웠다는 점이다 [7][
1][
12].
결론: AI 경쟁의 계산법이 바뀌고 있다
ERNIE 5.1이 중요한 이유는 AI 경쟁을 비용 대비 성능의 문제로 다시 보게 만들기 때문이다. 바이두는 ERNIE 5.1이 전체 파라미터와 활성 파라미터를 줄이면서도, 비교 가능한 모델 대비 약 6%의 사전학습 비용으로 해당 규모에서 선도적 성능을 냈다고 주장한다 [7].
그 방식은 ERNIE 5.0의 기반을 이어받고, 탄력적 모델 패밀리 학습을 활용하며, 비동기 강화학습 기반의 후속 학습을 더하는 구조로 요약된다 [7][
1][
12]. 6%라는 숫자는 충분히 눈길을 끈다. 그러나 비교 기준과 비용 산정 방식이 더 투명하게 공개되기 전까지는 확정된 사실이라기보다, 글로벌 AI 경쟁에서 매우 진지하게 검토해야 할 회사 측 주장으로 보는 것이 맞다.




