答案已發布1 小時前Last edited 1 小時前3 個來源

百度 ERNIE 5.1：為何「6% 預訓練成本」比模型大小更值得看

百度稱 ERNIE 5.1 在同模型規模下達到領先基礎能力，預訓練成本僅約為可比模型的 6%；重點是效率，而不只是模型變大 [7]。其方法包括繼承 ERNIE 5.0 的預訓練基礎、將總參數壓到約三分之一、激活參數壓到約二分之一，並透過彈性訓練與非同步強化學習後訓練提升能力 [7][1][12]。

使用 Studio Global AI 搜尋並查證事實瀏覽更多熱門頁面

2.1K0

# Baidu Launches ERNIE 5.1 Foundation Model at 6% Pre-Training Cost# Baidu Launches ERNIE 5.1 Foundation Model at 6% Pre-Training Cost. https://www.therift.ai/news-feed/baidu-launches-ernie-5-1-foundation-model-at-6-pre-training-cost. * Baidu released ERNIE 5.1, a foundation model built on ERNIE 5.0's pre-training foundation with significantly reduced computational cost, requiring onlBaidu Launches ERNIE 5.1 Foundation Model at 6% Pre-Training ...

百度 ERNIE 5.1 最值得關注的，不是「又一個更大的模型」，而是它把大模型競賽重新拉回一個更現實的問題：同樣追求高水準能力，究竟要花多少預訓練成本？

百度在官方發布中表示，ERNIE 5.1 繼承 ERNIE 5.0 的預訓練基礎，將總參數壓縮到約三分之一、激活參數壓縮到約二分之一，同時在其模型規模下達到領先的基礎性能，預訓練成本僅約為可比模型的 6% ^[7]。這個數字之所以重要，是因為它指向一條不同路線：不是每次都從零開始訓練一個更龐大的模型，而是重用既有基礎、縮小模型足跡，再透過後訓練補強能力。

真正的看點：成本效益，而不是單純比大小

過去談大模型，常見焦點是參數量、算力規模、排行榜名次。但 ERNIE 5.1 的敘事重心明顯不同：百度強調的是壓縮之後仍能保留多少能力，以及預訓練成本能降到多低 ^[7]。

百度的 ERNIE 部落格也稱，ERNIE 5.1 在中國的 Arena Search 排名第一，並透過「解耦式全非同步強化學習」與擴展式 Agent 後訓練，提升 Agent、推理與創作能力 ^[12]。換句話說，百度想傳達的不是「我把模型做得更大」，而是「我能用更精簡的配置，保留或強化關鍵能力」。

放在全球 AI 競賽來看，這代表一個策略訊號：若模型實驗室能以較低預訓練成本接近高階表現，競爭優勢就不只來自參數堆疊，也來自訓練設計、模型重用、壓縮方式與後訓練效率。

「6%」到底該怎麼讀？

這個數字要讀得精準。百度的說法是：ERNIE 5.1 的「預訓練成本」約為可比模型的 6% ^[7]。它不是在現有公開資料中被獨立審計過的總開發成本，也不等於部署成本、推理成本、商業定價或硬體效率的完整比較。

「可比模型」這幾個字也很關鍵。若沒有更完整的基準說明，外界很難判斷百度比較的是哪些模型、採用什麼成本口徑、使用何種硬體假設、訓練範圍是否一致。這不代表 6% 沒有參考價值；它的意思是，現階段更適合把它視為百度提出的成本效益主張，而不是已經被業界獨立確認的標準答案。

百度稱 ERNIE 5.1 如何把成本壓低

從目前公開資料看，百度的技術敘事可以拆成四個部分。

1. 繼承 ERNIE 5.0 的預訓練基礎

百度表示，ERNIE 5.1 並不是以完全從零開始的方式被描述，而是繼承 ERNIE 5.0 的預訓練基礎 ^[7]。這讓 ERNIE 5.1 更像是建立在既有大型基礎上的高效率延伸版本。

2. 壓縮模型足跡

官方發布稱，ERNIE 5.1 將總參數壓縮到約三分之一，激活參數壓縮到約二分之一，並維持其模型規模下的領先表現 ^[7]。總參數可理解為模型完整的規模足跡；激活參數則是一次運算中實際被調用的部分。兩者同時下降，正是這次發布被視為效率故事的原因。

3. 使用「彈性模型家族」訓練思路

ERNIE 5.0 技術報告提到一種彈性訓練範式：一次預訓練可以產生一系列具備不同「能力—效率」取捨的模型。報告稱，這種方法會依照預先設定的排程，動態抽樣不同深度、寬度與路由稀疏度的子模型，並讓子模型從完整模型繼承知識，以便後續進入後訓練階段 ^[1]。

這點很重要，因為它把訓練思路從「只訓練一個固定架構」改成「一次訓練孕育多種規模選項」。若能從同一基礎中挑出更有效率的配置，成本壓力自然可能下降。

4. 透過後訓練補強 Agent、推理與創作

百度稱，ERNIE 5.1 採用解耦式全非同步強化學習，以及擴展式 Agent 後訓練，帶來 Agent、推理與創作能力的全面升級 ^[12]。也就是說，百度的主張不是只靠壓縮，而是在壓縮後再以後訓練強化特定能力。

綜合來看，ERNIE 5.1 的關鍵並不是「更大就是更強」，而是百度宣稱能從 ERNIE 5.0 式的基礎中抽取更有效率的配置，並透過後訓練把能力補上去 ^[7]^[1]^[12]。

為何參數削減值得重視？

在大模型語境裡，參數不是單純的行銷數字。總參數影響模型完整體量，激活參數則影響一次推理或訓練步驟中實際參與計算的部分。百度稱 ERNIE 5.1 同時降低這兩項，因此這次發布談的是能力，也是在談工程效率 ^[7]。

如果一個模型能繼承強大的預訓練基礎、減少需要訓練或啟動的模型部分，並仍維持良好表現，那麼產業競爭的重心就會從「誰堆得更大」轉向「誰能把每一分算力用得更精準」。這也是 ERNIE 5.1 被視為全球 AI 競賽訊號的原因。

還有哪些地方尚未被證明？

最大的問題仍是可驗證性。現有公開資料並未完整列出 6% 背後的訓練預算、硬體組合、資料配比、訓練時長、加速器利用率、後訓練成本，或確切比較對象 ^[7]。因此，讀者應把它視為百度公開提出的成本效益說法，而不是已經獨立確立的產業基準。

排行榜也不能回答所有落地問題。它可以反映模型品質的一部分，但不能直接證明企業部署中的穩定性、安全性、延遲、維運成本或長期可靠度。就 ERNIE 5.1 而言，目前最有把握的結論比較窄：百度正在公開把模型策略押在效率、既有預訓練基礎的繼承，以及專門化後訓練上 ^[7]^[1]^[12]。

結論

ERNIE 5.1 的意義，在於它把 AI 競賽的問題從「誰的模型最大」推向「誰能以更低成本取得更高效能」。百度稱，ERNIE 5.1 在壓縮總參數與激活參數後，仍能在其模型規模下達到領先表現，且預訓練成本約為可比模型的 6% ^[7]。其宣稱的路徑，是繼承 ERNIE 5.0 的預訓練基礎，搭配彈性模型家族訓練，再以非同步強化學習與 Agent 後訓練提升能力 ^[7]^[1]^[12]。

6% 是一個很有吸引力的數字，但在比較基準與成本口徑更透明以前，它更應被理解為一項值得認真看待的主張，而非已經蓋棺定論的事實。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

百度稱 ERNIE 5.1 在同模型規模下達到領先基礎能力，預訓練成本僅約為可比模型的 6%；重點是效率，而不只是模型變大 [7]。
其方法包括繼承 ERNIE 5.0 的預訓練基礎、將總參數壓到約三分之一、激活參數壓到約二分之一，並透過彈性訓練與非同步強化學習後訓練提升能力 [7][1][12]。
但 6% 仍是百度公開提出的成本效益說法；目前資料未完整揭露訓練預算、硬體、資料配比、訓練時長與比較基準。

輔助視覺素材

# I Tested Baidu Ernie 5.1 Free And The Numbers Shocked Me# I Tested Baidu Ernie 5.1 Free And The Numbers Shocked Me. Baidu Ernie 5.1 Free is getting attention because Ernie 5.1 Preview ranked number one among Chinese models and number 13 globally on the LMArena Text leaderboard. The bigger story is not just the ranking, because the real shift is how efficient the model appeaI Tested Baidu Ernie 5.1 Free And The Numbers Shocked Me

大家也會問