百度 ERNIE 5.1 最值得關注的,不是「又一個更大的模型」,而是它把大模型競賽重新拉回一個更現實的問題:同樣追求高水準能力,究竟要花多少預訓練成本?
百度在官方發布中表示,ERNIE 5.1 繼承 ERNIE 5.0 的預訓練基礎,將總參數壓縮到約三分之一、激活參數壓縮到約二分之一,同時在其模型規模下達到領先的基礎性能,預訓練成本僅約為可比模型的 6% [7]。這個數字之所以重要,是因為它指向一條不同路線:不是每次都從零開始訓練一個更龐大的模型,而是重用既有基礎、縮小模型足跡,再透過後訓練補強能力。
真正的看點:成本效益,而不是單純比大小
過去談大模型,常見焦點是參數量、算力規模、排行榜名次。但 ERNIE 5.1 的敘事重心明顯不同:百度強調的是壓縮之後仍能保留多少能力,以及預訓練成本能降到多低 [7]。
百度的 ERNIE 部落格也稱,ERNIE 5.1 在中國的 Arena Search 排名第一,並透過「解耦式全非同步強化學習」與擴展式 Agent 後訓練,提升 Agent、推理與創作能力 [12]。換句話說,百度想傳達的不是「我把模型做得更大」,而是「我能用更精簡的配置,保留或強化關鍵能力」。
放在全球 AI 競賽來看,這代表一個策略訊號:若模型實驗室能以較低預訓練成本接近高階表現,競爭優勢就不只來自參數堆疊,也來自訓練設計、模型重用、壓縮方式與後訓練效率。
「6%」到底該怎麼讀?
這個數字要讀得精準。百度的說法是:ERNIE 5.1 的「預訓練成本」約為可比模型的 6% [7]。它不是在現有公開資料中被獨立審計過的總開發成本,也不等於部署成本、推理成本、商業定價或硬體效率的完整比較。
「可比模型」這幾個字也很關鍵。若沒有更完整的基準說明,外界很難判斷百度比較的是哪些模型、採用什麼成本口徑、使用何種硬體假設、訓練範圍是否一致。這不代表 6% 沒有參考價值;它的意思是,現階段更適合把它視為百度提出的成本效益主張,而不是已經被業界獨立確認的標準答案。
百度稱 ERNIE 5.1 如何把成本壓低
從目前公開資料看,百度的技術敘事可以拆成四個部分。
1. 繼承 ERNIE 5.0 的預訓練基礎
百度表示,ERNIE 5.1 並不是以完全從零開始的方式被描述,而是繼承 ERNIE 5.0 的預訓練基礎 [7]。這讓 ERNIE 5.1 更像是建立在既有大型基礎上的高效率延伸版本。
2. 壓縮模型足跡
官方發布稱,ERNIE 5.1 將總參數壓縮到約三分之一,激活參數壓縮到約二分之一,並維持其模型規模下的領先表現 [7]。總參數可理解為模型完整的規模足跡;激活參數則是一次運算中實際被調用的部分。兩者同時下降,正是這次發布被視為效率故事的原因。
3. 使用「彈性模型家族」訓練思路
ERNIE 5.0 技術報告提到一種彈性訓練範式:一次預訓練可以產生一系列具備不同「能力—效率」取捨的模型。報告稱,這種方法會依照預先設定的排程,動態抽樣不同深度、寬度與路由稀疏度的子模型,並讓子模型從完整模型繼承知識,以便後續進入後訓練階段 [1]。
這點很重要,因為它把訓練思路從「只訓練一個固定架構」改成「一次訓練孕育多種規模選項」。若能從同一基礎中挑出更有效率的配置,成本壓力自然可能下降。
4. 透過後訓練補強 Agent、推理與創作
百度稱,ERNIE 5.1 採用解耦式全非同步強化學習,以及擴展式 Agent 後訓練,帶來 Agent、推理與創作能力的全面升級 [12]。也就是說,百度的主張不是只靠壓縮,而是在壓縮後再以後訓練強化特定能力。
綜合來看,ERNIE 5.1 的關鍵並不是「更大就是更強」,而是百度宣稱能從 ERNIE 5.0 式的基礎中抽取更有效率的配置,並透過後訓練把能力補上去 [7][
1][
12]。
為何參數削減值得重視?
在大模型語境裡,參數不是單純的行銷數字。總參數影響模型完整體量,激活參數則影響一次推理或訓練步驟中實際參與計算的部分。百度稱 ERNIE 5.1 同時降低這兩項,因此這次發布談的是能力,也是在談工程效率 [7]。
如果一個模型能繼承強大的預訓練基礎、減少需要訓練或啟動的模型部分,並仍維持良好表現,那麼產業競爭的重心就會從「誰堆得更大」轉向「誰能把每一分算力用得更精準」。這也是 ERNIE 5.1 被視為全球 AI 競賽訊號的原因。
還有哪些地方尚未被證明?
最大的問題仍是可驗證性。現有公開資料並未完整列出 6% 背後的訓練預算、硬體組合、資料配比、訓練時長、加速器利用率、後訓練成本,或確切比較對象 [7]。因此,讀者應把它視為百度公開提出的成本效益說法,而不是已經獨立確立的產業基準。
排行榜也不能回答所有落地問題。它可以反映模型品質的一部分,但不能直接證明企業部署中的穩定性、安全性、延遲、維運成本或長期可靠度。就 ERNIE 5.1 而言,目前最有把握的結論比較窄:百度正在公開把模型策略押在效率、既有預訓練基礎的繼承,以及專門化後訓練上 [7][
1][
12]。
結論
ERNIE 5.1 的意義,在於它把 AI 競賽的問題從「誰的模型最大」推向「誰能以更低成本取得更高效能」。百度稱,ERNIE 5.1 在壓縮總參數與激活參數後,仍能在其模型規模下達到領先表現,且預訓練成本約為可比模型的 6% [7]。其宣稱的路徑,是繼承 ERNIE 5.0 的預訓練基礎,搭配彈性模型家族訓練,再以非同步強化學習與 Agent 後訓練提升能力 [
7][
1][
12]。
6% 是一個很有吸引力的數字,但在比較基準與成本口徑更透明以前,它更應被理解為一項值得認真看待的主張,而非已經蓋棺定論的事實。




