答案已發布2 個月前Last edited 上個月16 來源

Stable Audio 3：Stability AI 新一代 AI 音樂生成模型點樣運作？

Stable Audio 3 係一個由 Small、Medium、Large 組成嘅音訊生成模型家族，可以由文字提示生成或編輯音樂同聲效，最長可生成約 6 分鐘音訊。[1][8] 系統用「語義‑聲學自編碼器」將音訊壓縮到潛在空間，再用擴散模型生成音訊，令長時間音訊生成更高效。[1][2] Stability AI 將 Small 同 Medium 版本以開放權重形式發布，並強調使用已授權訓練數據，希望同 Suno、Udio 等封閉平台形成差異。[4][8]

使用 Studio Global AI 搜尋並查核事實瀏覽更多熱門頁面

Illustration representing AI music generation and diffusion-based audio models — How does Stability AI’s new Stable Audio 3 work, what models are included in the release, what technical improvements does it introduce (sucStable Audio 3 introduces a family of latent‑diffusion models capable of generating and editing multi‑minute audio clips.
AI 提示
Create a landscape editorial hero image for this Studio Global article: How does Stability AI’s new Stable Audio 3 work, what models are included in the release, what technical improvements does it introduce (suc. Article summary: Stable Audio 3 is Stability AI’s new family of fast latent-diffusion audio models for variable-length music and sound generation, with editing support such as inpainting.[1] The release includes small, medium, and large . Topic tags: general, academic, general web. Reference image context from search candidates: Reference image 1: visual subject "# Announcing Stable Audio: A Generative AI Music Service. We’re pleased to announce the release of Stable Audio, a new generative AI music service. Stable Audio is a collaboration" source context "Announcing Stable Audio: A Generative AI Music Service" Reference image 2: visual subject "## **For** **everywhere** **your
openai.com

AI 音樂生成技術近年發展得非常快，而 Stability AI 最新推出嘅 Stable Audio 3，正正係想成為呢個領域嘅核心模型之一。呢個系統唔只係單一模型，而係一個由多個模型組成嘅家族，可以由文字提示生成音樂、聲效，甚至對現有音訊進行編輯，而且可以生成 幾分鐘長嘅音訊片段。同部分競爭對手唔同，當中部分模型更提供 開放權重同已授權訓練數據，方便研究者同開發者自行擴展。

Stable Audio 3 係咩

Stable Audio 3 係一個用於音訊生成同編輯嘅 潛在擴散模型（latent diffusion）家族，主要分為三個版本：Small、Medium 同 Large。系統可以根據文字提示生成音樂、樂器段落或者聲效，同時亦可以修改現有音訊片段。

同直接生成原始聲波（waveform）唔同，Stable Audio 3 先將音訊轉換成 壓縮嘅潛在表示（latent representation） 再進行生成。呢種做法大幅降低運算成本，亦令生成 長時間音訊 變得可行。

發佈資料特別強調兩個重要能力：

可變長度生成（variable‑length generation）：可以按需要生成短聲效或者幾分鐘長嘅音樂，而唔需要每次都計算最長時長。
音訊修補（audio inpainting）：可以針對音訊某一段進行替換、補完或者延伸。

呢啲功能令 Stable Audio 3 唔只係「prompt 生成歌曲」工具，而係更接近一個 AI 音訊創作工具平台。

核心架構：語義‑聲學潛在擴散

Stable Audio 3 嘅基本原理，同而家好多 AI 圖像生成模型相似：擴散模型喺壓縮潛在空間入面生成內容。

其中一個核心組件叫做 語義‑聲學自編碼器（semantic‑acoustic autoencoder）。呢個模型會將原始音訊轉換成一個緊湊表示，同時保留兩種資訊：

音樂語義（例如節奏、旋律、結構）
聲學細節（例如音色、音質）

整個生成流程大致如下：

音訊壓縮：自編碼器將聲波轉換為潛在表示。
擴散生成：擴散模型根據提示或條件生成或修改潛在音訊。
解碼輸出：再將潛在表示轉回完整音訊波形。

由於擴散過程係喺壓縮空間進行，系統可以 用較少運算生成更長嘅音訊，同時保持音質。

可變長度生成同音訊編輯

Stable Audio 3 嘅設計重點之一係 原生支援不同長度音訊生成。

傳統音訊生成模型往往固定長度，但 Stable Audio 3 可以按需求生成：

幾秒鐘嘅聲效
幾十秒音樂片段
幾分鐘完整音樂

呢個功能可以避免為短音訊付出生成整段長音訊嘅運算成本。

另外，系統亦支援 audio inpainting，即係可以：

替換音樂某一段
延長原本嘅錄音
修復缺失或損壞嘅片段

呢種能力令模型更接近 生成式音訊工作站工具（generative audio workstation），而唔只係單純生成音樂。

模型版本：Small、Medium、Large

Stable Audio 3 係一個 多尺寸模型家族，每個版本針對唔同使用場景。

Stable Audio 3 Small

主要強調效率
目標係可以喺 資源有限或流動裝置 上運行
提供 開放權重下載（例如 Hugging Face）

Stable Audio 3 Medium

功能更完整
適合 完整音樂生成同一般音訊創作
同樣提供 公開權重下載

常見有兩個版本：

Stable Audio 3 Medium：直接用來生成音訊
Stable Audio 3 Medium Base：作為研究或微調用嘅基礎模型

Stable Audio 3 Large

整個系列中能力最強
針對 企業級音訊製作
一般透過 Stability AI API 或企業部署取得，而唔係公開下載權重

官方表示整個模型家族可生成 最長約六分鐘音訊（視乎配置而定）。

訓練方法同模型流程

Stable Audio 3 採用 多階段訓練流程。核心思路係先分別訓練不同組件，再整合成完整生成系統。

簡化流程包括：

自編碼器訓練：學習將音訊壓縮同還原
擴散模型訓練：學習根據提示生成潛在音訊
後續優化階段：提升生成質量同推理效率

論文確認存在多階段設計，但公開資料對每個訓練階段嘅細節仍然比較有限。

開放權重同授權訓練數據

Stable Audio 3 嘅一個重要特色係 授權策略。

Stability AI 表示模型係使用 完全授權嘅訓練數據，而生成內容嘅所有權屬於用戶。

主要授權重點包括：

Small 同 Medium 提供開放權重
用戶可根據 Stability AI Community License 商業化生成內容
年收入超過 100 萬美元嘅企業需要使用企業授權

呢個策略亦回應生成式 AI 行業近年最具爭議嘅議題之一：AI 訓練數據版權問題。

同 Suno、Udio 嘅競爭定位

目前 AI 音樂市場競爭激烈，例如 Suno 同 Udio 已經可以生成完整歌曲甚至人聲。

Stable Audio 3 嘅定位有少少唔同。

Stability AI 更強調：

開放權重供開發者使用
已授權訓練數據
音訊生成同編輯嘅靈活性

相比之下，Suno 同 Udio 更偏向 封閉式消費產品平台。

換句話講，Stable Audio 3 更似係一個 音訊生成基礎模型（foundation model），希望成為藝術家、研究者同開發者構建新工具嘅底層技術。

點解呢個發佈重要

Stable Audio 3 顯示 AI 音訊生成模型正逐步由「玩具式生成歌曲」走向 可編輯、可擴展嘅創作平台。

最突出的三點包括：

用潛在擴散模型實現 幾分鐘長音訊生成
透過 inpainting 支援 可編輯音訊流程
提供 開放權重模型 方便開發者實驗

隨住生成式 AI 工具愈來愈成熟，呢類架構有機會成為下一代 AI 驅動音樂製作工具同數碼音訊工作站（DAW） 嘅核心技術。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

人們還問