답변게시됨2개월 전Last edited 2개월 전13 소스

바이두 ERNIE 5.1: ‘훈련비 6%’ 주장의 진짜 의미

바이두는 ERNIE 5.1이 ERNIE 5.0의 사전학습 기반을 계승하면서 전체 파라미터를 약 3분의 1, 활성 파라미터를 약 절반으로 줄였다고 밝혔다. 핵심 주장은 “비교 가능한 모델” 대비 약 6%의 사전학습 비용으로 해당 규모에서 선도적 기초 성능을 냈다는 점이다.

Studio Global AI로 검색 및 팩트체크 인기 페이지 더 보기

Editorial illustration for Baidu ERNIE 5.1 and its 6% pre-training cost claim — Baidu ERNIE 5.1: Why Its 6% Training-Cost Claim MattersBaidu’s ERNIE 5.1 announcement centers on an efficiency claim: strong performance at its model scale with sharply reduced parameters and pre-training cost.
AI 프롬프트
Create a landscape editorial hero image for this Studio Global article: Baidu ERNIE 5.1: Why Its 6% Training-Cost Claim Matters. Article summary: Baidu’s ERNIE 5.1 matters because Baidu claims leading performance at its model scale with only about 6% of comparable pre training cost—a shift toward efficiency over raw scale, though the cost figure remains a compa.... Topic tags: ai, baidu, ernie, llm, model efficiency. Reference image context from search candidates: Reference image 1: visual subject "The model employs "Multi-Dimensional Elastic Pre-training" technology, compressing total parameters to about one-third of ERNIE 5.0 and active parameters to about one-half. Its pre" source context "Baidu Releases ERNIE 5.1, with Pre-training Cost Only 6% of ..." Reference image 2: visual subject "The model employs "Multi-Dimensional Elastic Pre-training" technology, compressing total parameter
openai.com

바이두의 ERNIE 5.1은 “더 큰 모델” 발표라기보다 “더 낮은 비용으로 얼마나 성능을 유지할 수 있나”를 앞세운 효율성 발표에 가깝다. 바이두는 ERNIE 5.1이 ERNIE 5.0의 사전학습 기반을 이어받으면서 전체 파라미터를 약 3분의 1, 활성 파라미터를 약 절반으로 압축했고, 비교 가능한 모델의 사전학습 비용 약 6%만으로 해당 모델 규모에서 선도적 기초 성능을 달성했다고 밝혔다 .

이 주장이 눈에 띄는 이유는 분명하다. 대형 AI 모델 경쟁은 흔히 “더 많은 파라미터, 더 많은 데이터, 더 많은 연산”의 싸움으로 읽힌다. 그런데 ERNIE 5.1은 그 반대편 질문을 던진다. 이미 만든 기반을 얼마나 잘 재사용하고, 모델을 얼마나 효과적으로 줄이며, 사후학습으로 능력을 얼마나 끌어올릴 수 있느냐는 문제다. 다만 6%라는 숫자는 강력한 헤드라인이지만, 비교 기준과 비용 계산 방식이 더 명확해지기 전까지는 회사가 제시한 주장으로 보는 것이 맞다 .

바이두가 실제로 주장한 내용

바이두의 핵심 주장은 비교적 좁지만 중요하다. ERNIE 5.1은 완전히 새로운 기반 모델을 처음부터 다시 사전학습한 모델이라기보다, ERNIE 5.0의 사전학습 기반을 계승한 모델로 설명된다 . 바이두는 이 과정에서 전체 파라미터를 약 3분의 1로, 활성 파라미터를 약 절반으로 줄였다고 밝혔다 .

여기서 비용 주장도 정확히 읽어야 한다. 바이두가 말한 약 6%는 사전학습 비용에 관한 수치다 . 공개 자료만으로는 이 숫자가 전체 개발비, 사후학습 비용, 배포 비용, 추론 비용, 하드웨어 효율, 실제 상용 가격까지 포함한다고 볼 근거가 충분하지 않다.

바이두의 블로그는 ERNIE 5.1이 에이전트, 추론, 창작 능력 전반에서 업그레이드를 제공한다고 설명한다. 그 배경으로는 분리형 완전 비동기 강화학습과 대규모 에이전트형 사후학습을 들었다 . 같은 블로그는 ERNIE 5.1이 중국 내 Arena Search Arena에서 1위를 기록했다고도 밝혔다 .

왜 ‘6%’가 중요한가

대형 언어모델 시장에서 비용은 단순한 회계 항목이 아니다. 모델을 한 번 더 크게 만드는 데 들어가는 연산량, 시간, 인프라 부담이 커질수록 “성능을 얼마나 싸게 얻을 수 있나”가 경쟁력의 핵심이 된다.

ERNIE 5.1이 주목받는 지점도 여기에 있다. 바이두는 완전히 새로운 초대형 사전학습을 반복하기보다, 기존 기반을 계승하고 모델 발자국을 줄이며 사후학습으로 성능을 보강하는 경로를 제시하고 있다 . 이 접근이 실제 환경에서도 유효하다면 AI 경쟁의 초점은 단순한 규모 경쟁에서 비용 대비 성능 엔지니어링으로 더 빠르게 이동할 수 있다.

물론 “그렇다면 6%로 업계 표준이 바뀌었다”라고 단정할 단계는 아니다. 지금 공개된 자료가 뒷받침하는 가장 안전한 해석은 이렇다. 바이두는 ERNIE 5.1을 통해 모델 계승, 압축, 탄력적 학습 아이디어, 사후학습을 조합해 사전학습 비용을 크게 낮췄다고 주장하고 있다 .

바이두가 비용을 낮췄다고 설명하는 방식

ERNIE 5.1의 효율성 주장은 크게 네 가지 축으로 읽을 수 있다.

1. ERNIE 5.0 기반을 재사용했다

가장 중요한 출발점은 ERNIE 5.1이 ERNIE 5.0의 사전학습 기반을 계승했다는 설명이다 . 즉 바이두는 ERNIE 5.1을 완전히 별개의 신규 기반 모델로 포장하기보다, 기존 기반에서 파생된 더 효율적인 모델로 제시하고 있다.

이 차이는 비용 논의에서 크다. 처음부터 다시 사전학습하는 것과 이미 학습된 기반을 활용하는 것은 필요한 연산량과 비용 구조가 다를 수밖에 없기 때문이다.

2. 전체 파라미터와 활성 파라미터를 모두 줄였다

바이두는 ERNIE 5.1의 전체 파라미터가 약 3분의 1로, 활성 파라미터가 약 절반으로 압축됐다고 밝혔다 . 전체 파라미터는 모델이 보유한 전체 규모를 뜻하고, 활성 파라미터는 특정 계산 과정에서 실제로 사용되는 부분을 가리킨다.

둘 다 줄였다는 점이 중요하다. 단순히 저장 공간만 줄인 것이 아니라, 실제 작동 시 필요한 계산량까지 줄이는 방향을 겨냥했다는 뜻으로 읽을 수 있다.

3. ERNIE 5.0의 ‘탄력적 학습’ 아이디어가 배경이 됐다

ERNIE 5.0 기술 보고서는 하나의 사전학습 실행으로 서로 다른 용량과 효율성의 절충점을 가진 모델 패밀리를 만들 수 있는 “탄력적 학습” 방식을 설명한다 . 이 방식은 고정된 하나의 아키텍처만 최적화하는 대신, 깊이, 너비, 라우팅 희소성이 다른 하위 모델을 동적으로 샘플링하도록 설계됐다고 보고서는 설명한다 .

보고서는 또 하위 모델이 전체 모델의 지식을 이어받아 이후 사후학습 단계에서 더 작은 모델로 유연하게 구체화될 수 있다고 밝혔다 . 이 점은 ERNIE 5.1의 논리를 이해하는 데 중요하다. 바이두가 말하는 방향은 단순히 “더 큰 모델을 훈련했다”가 아니라, 유연한 기반을 만든 뒤 그 안에서 더 효율적인 구성을 뽑아내는 쪽에 가깝다 .

4. 사후학습으로 에이전트·추론 능력을 보강했다

바이두는 ERNIE 5.1이 분리형 완전 비동기 강화학습과 대규모 에이전트형 사후학습을 통해 에이전트, 추론, 창작 능력을 전반적으로 끌어올렸다고 설명한다 . 다시 말해 바이두의 주장은 “모델을 작게 만들었다”에서 끝나지 않는다. 줄어든 모델 구조 위에 사후학습을 더해 최종 사용 능력을 개선했다는 주장까지 포함한다 .

아직 확인되지 않은 것들

가장 큰 미해결 지점은 검증이다. 공개된 자료만으로는 6% 수치의 비교 기준이 무엇인지, 어떤 하드웨어를 썼는지, 데이터 구성은 어땠는지, 훈련 기간과 가속기 활용률은 어느 정도였는지, 사후학습 비용은 어떻게 계산했는지, “비교 가능한 모델”의 정확한 목록이 무엇인지까지 확인하기 어렵다 .

따라서 6%라는 숫자는 의미 없다고 볼 필요는 없지만, 독립적으로 감사된 업계 표준 지표처럼 받아들이기도 어렵다. 현재로서는 바이두가 공개 자료를 통해 제시한 효율성 주장, 즉 ERNIE 5.1이 ERNIE 5.0 기반 계승과 파라미터 압축, 탄력적 학습 아이디어, 사후학습을 통해 해당 규모에서 선도적 기초 성능과 낮은 사전학습 비용을 동시에 겨냥했다는 주장으로 읽는 것이 가장 타당하다 .

결론: 크기 경쟁보다 비용 대비 성능 경쟁

ERNIE 5.1의 의미는 “바이두가 더 큰 모델을 냈다”가 아니다. 오히려 바이두는 ERNIE 5.0의 기반을 이어받고, 전체 및 활성 파라미터를 줄이며, 비교 가능한 모델 대비 약 6%의 사전학습 비용으로 해당 규모에서 선도적 기초 성능을 냈다고 주장한다 .

이 주장은 AI 모델 경쟁의 방향을 다시 묻게 만든다. 앞으로 중요한 것은 누가 가장 큰 모델을 만들었느냐만이 아니라, 누가 같은 성능에 더 적은 비용으로 도달하느냐일 수 있다. 다만 현재의 공개 자료만으로 6% 수치를 완전히 검증된 비용 벤치마크로 보기는 어렵다. ERNIE 5.1은 강한 효율성 주장이지, 아직 모든 세부가 공개된 확정적 비용 표준은 아니다.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

사람들은 또한 묻습니다.