如果淨係睇「新一代大模型」幾個字,ERNIE 5.1 好容易被當成又一次規模競賽。但百度今次真正想講嘅,其實係一條成本數:公司稱 ERNIE 5.1 承接 ERNIE 5.0 嘅預訓練基礎,將總參數壓到約三分之一、激活參數壓到約一半,仍可在其模型規模下取得領先基礎表現;而預訓練成本只係可比模型約 6% [7]。
換句話講,ERNIE 5.1 嘅賣點唔係「更大就更勁」,而係「可唔可以用少好多成本,保留接近前沿嘅能力」。放到全球 AI 競賽入面,呢個角度好關鍵:如果模型實力可以靠重用基礎、壓縮架構同後訓練提升,而唔一定每次都由零開始燒一次巨型預訓練,競爭焦點就會由參數數量,轉去訓練設計同成本效益。
真正重點:成本效益,而唔係單純鬥規模
百度對 ERNIE 5.1 嘅描述,唔係主打「比上一代再大幾多」,而係主打壓縮之後仍然可以保留幾多能力。官方發布指,ERNIE 5.1 在其模型規模下達到領先基礎表現,同時預訓練成本只係可比模型約 6% [7]。
百度亦在 ERNIE Blog 表示,ERNIE 5.1 透過分離式全異步強化學習,以及大規模智能體後訓練,在 Agent、推理同創意能力方面有全面升級,並在 Arena Search Arena 中國區排名第一 [12]。
所以,今次最值得睇嘅唔係一個單一排行榜名次,而係百度公開押注一種路線:用更有效率嘅訓練同後訓練方法,去追求接近領先級別嘅表現。
「6%」到底代表乜?要讀窄啲
呢個 6% 數字要小心解讀。百度講嘅,是 ERNIE 5.1 相對「可比模型」嘅預訓練成本約為 6% [7]。按目前引用資料,呢個數字唔等於已審計嘅總研發成本、部署成本、推理價格,亦唔等於硬件效率嘅完整比較。
「可比模型」四個字亦好重要。若果未公開清楚比較基準,外界就難以知道百度係同邊啲模型比較、用乜成本口徑、假設咩硬件環境、訓練範圍包唔包括某啲階段。呢個限制唔代表 6% 無意思;但現階段更合理嘅讀法,是把它視為百度公布嘅成本效益主張,而唔係獨立確認咗嘅行業標準。
百度話點樣做到更平?四個關鍵
1. 承接 ERNIE 5.0 嘅預訓練基礎
百度稱 ERNIE 5.1 並唔係一個完全由零開始嘅全新基礎模型,而係繼承 ERNIE 5.0 嘅預訓練基礎 [7]。呢個設定令 ERNIE 5.1 更似係由既有大模型底座抽取、壓縮同再優化而來。
2. 壓細模型體積
官方發布指,ERNIE 5.1 將總參數壓到約三分之一,激活參數壓到約一半,同時維持其模型規模下嘅領先表現 [7]。簡單講,總參數係模型整體「身形」,激活參數就係每次運算實際用到嘅部分。兩者都減少,先令「能力」同「成本」可以放埋一齊討論。
3. 用彈性模型家族訓練
ERNIE 5.0 技術報告提到一種彈性訓練範式:一次預訓練可以產生一系列模型,喺容量同效率之間有唔同取捨。報告指,呢種方法會按預設排程,動態抽樣唔同深度、寬度同路由稀疏度嘅子模型,亦令子模型可以由完整模型繼承知識,方便後續後訓練階段使用 [1]。
呢個概念嘅重點,是唔一定每個規模都要重新完整訓練一次。對 AI 公司而言,如果一個大底座可以派生出多個唔同成本效益嘅版本,訓練策略就會靈活好多。
4. 靠後訓練補強 Agent、推理同創意能力
百度稱 ERNIE 5.1 由分離式全異步強化學習,以及大規模智能體後訓練驅動,並帶來 Agent、推理同創意能力升級 [12]。換言之,百度嘅講法唔係「縮細就完事」,而係先由 ERNIE 5.0 式基礎抽取更有效率配置,再透過後訓練去補強特定能力 [
7][
1][
12]。
參數減少點解重要?
大模型討論成日會變成「有幾多參數」嘅比賽,但 ERNIE 5.1 令另一個問題浮面:如果模型可以承接強基礎,再減少整體參數同每次運算啟用嘅參數,表現又仍然有競爭力,咁 AI 競賽嘅重心就唔再只係 raw scale,而係成本效益工程。
百度稱 ERNIE 5.1 同時削減總參數同激活參數,正正令呢次發布唔止係能力發布,亦係效率發布 [7]。
仍然未證實嘅部分
最大問號係驗證。現有公開引用資料未有完整披露 6% 背後嘅訓練預算、硬件配置、數據組合、訓練時長、加速器使用率、後訓練成本,或者確切比較模型清單。冇呢啲細節,讀者應該將 6% 視為百度嘅公司公布,而唔係已獨立確立嘅業界基準 [7]。
另外,公開排行榜可以反映模型質素一部分,但唔足以證明企業部署時嘅可靠性、安全性、延遲表現或者總營運成本。就 ERNIE 5.1 而言,目前最穩陣嘅結論係:百度正公開把其模型策略,押喺效率、繼承式預訓練同專門化後訓練之上 [7][
1][
12]。
一句講晒
ERNIE 5.1 重要,因為佢將 AI 競賽重新拉返去「成本效益」呢條數。百度稱,ERNIE 5.1 在壓低總參數、激活參數同相對預訓練成本之後,仍可維持其模型規模下嘅領先表現 [7]。佢嘅方法——承接 ERNIE 5.0 基礎、利用彈性模型家族訓練,再加上全異步強化學習同智能體後訓練——令 ERNIE 5.1 成為一個效率優先嘅大模型案例 [
7][
1][
12]。
不過,6% 呢個數字再吸睛都好,喺比較基準同成本口徑未有更透明資料前,最好將它視為一個值得認真看待嘅主張,而唔係已經蓋棺定論嘅事實。




