В более общем описании Baidu также заявляет, что ERNIE 5.1 получила улучшения в агентных сценариях, рассуждении и творческих задачах благодаря раздельному полностью асинхронному обучению с подкреплением и масштабированному агентному постобучению . Там же говорится, что модель заняла первое место в Китае на Arena Search Arena
.
Гонку больших моделей часто описывают простым языком масштаба: больше параметров, больше данных, больше вычислений. ERNIE 5.1 предлагает другой акцент. Baidu утверждает, что можно сохранить значимую производительность, уменьшив модельный «вес» и не оплачивая полный цикл нового предобучения .
Если такой подход подтвердится на практике, преимущество будет всё сильнее зависеть от инженерии соотношения «стоимость — качество»: насколько хорошо лаборатория умеет переиспользовать фундаментальную модель, выбирать эффективные подмодели, уменьшать активные вычисления и улучшать поведение через постобучение. ERNIE 5.1 важна именно потому, что Baidu прямо формулирует эту логику в материалах релиза .
Заявление об эффективности держится на нескольких связанных идеях.
В релизе говорится, что ERNIE 5.1 наследует предобученную основу ERNIE 5.0 . Это центр всей экономической логики: ERNIE 5.1 позиционируется как развитие уже существующей базы, а не как отдельная попытка заново обучить фундаментальную модель за полную стоимость.
Baidu заявляет, что ERNIE 5.1 сжимает общее число параметров примерно до одной трети, а активные параметры — примерно до половины . Общее число параметров описывает полный размер модели, тогда как активные параметры — ту часть, которая задействуется в конкретном вычислении. Поэтому релиз одновременно говорит и о возможностях, и об экономии вычислений.
В техническом отчёте ERNIE 5.0 описан подход «эластичного обучения»: один прогон предобучения может порождать семейство моделей с разными компромиссами между ёмкостью и эффективностью . Согласно отчёту, это достигается динамическим выбором подмоделей с разной глубиной, шириной и разреженностью маршрутизации, а также возможностью для подмоделей наследовать знания полной модели для последующих этапов постобучения
.
Для понимания ERNIE 5.1 это важно потому, что объясняет логику «модельного семейства», лежащую за заявлением Baidu. Речь не просто о том, чтобы обучить модель побольше. Скорее, это попытка обучить гибкую основу, а затем получать из неё более эффективные конфигурации .
Baidu утверждает, что ERNIE 5.1 использует раздельное полностью асинхронное обучение с подкреплением и масштабированное агентное постобучение для улучшения агентных, рассуждающих и творческих возможностей . Иными словами, компания говорит не только о том, что сделала модель меньше, но и о том, что финальный профиль возможностей был усилен на этапах после предобучения
.
Главный открытый вопрос — проверяемость. В публичных материалах, на которые можно опереться, нет полного раскрытия бюджета обучения, конфигурации оборудования, состава данных, длительности обучения, загрузки ускорителей, стоимости постобучения и точного набора «сопоставимых моделей», с которыми сравнивается показатель 6% .
Это не делает заявление бессмысленным. Но это означает, что его нельзя автоматически считать независимым отраслевым бенчмарком. Самая надёжная формулировка пока уже: Baidu заявляет, что ERNIE 5.1 сохраняет ведущую базовую производительность в своём масштабе, одновременно снижая число параметров и стоимость предобучения за счёт наследования, сжатия, идей эластичного обучения и постобучения .
ERNIE 5.1 важна тем, что смещает рассказ Baidu о прогрессе в ИИ от грубой гонки масштаба к инженерии эффективности. Компания заявляет, что модель наследует основу ERNIE 5.0, сокращает общее и активное число параметров и достигает ведущей производительности в своём масштабе примерно за 6% затрат на предобучение сопоставимых моделей .
Но публичных данных пока недостаточно, чтобы считать эту цифру окончательно подтверждённой. Пока Baidu или независимые оценщики не раскроют больше информации о базовой линии сравнения, оборудовании, данных и методике подсчёта, ERNIE 5.1 разумнее воспринимать как серьёзное заявление об эффективности — но не как полностью верифицированный эталон стоимости обучения.
Comments
0 comments