呢啲功能令 Stable Audio 3 唔只係「prompt 生成歌曲」工具,而係更接近一個 AI 音訊創作工具平台。
Stable Audio 3 嘅基本原理,同而家好多 AI 圖像生成模型相似:擴散模型喺壓縮潛在空間入面生成內容。
其中一個核心組件叫做 語義‑聲學自編碼器(semantic‑acoustic autoencoder)。呢個模型會將原始音訊轉換成一個緊湊表示,同時保留兩種資訊:
整個生成流程大致如下:
Stable Audio 3 嘅設計重點之一係 原生支援不同長度音訊生成。
傳統音訊生成模型往往固定長度,但 Stable Audio 3 可以按需求生成:
另外,系統亦支援 audio inpainting,即係可以:
常見有兩個版本:
簡化流程包括:
Stable Audio 3 嘅一個重要特色係 授權策略。
主要授權重點包括:
呢個策略亦回應生成式 AI 行業近年最具爭議嘅議題之一:AI 訓練數據版權問題。
目前 AI 音樂市場競爭激烈,例如 Suno 同 Udio 已經可以生成完整歌曲甚至人聲。
Stable Audio 3 嘅定位有少少唔同。
Stability AI 更強調:
相比之下,Suno 同 Udio 更偏向 封閉式消費產品平台。
Stable Audio 3 顯示 AI 音訊生成模型正逐步由「玩具式生成歌曲」走向 可編輯、可擴展嘅創作平台。
最突出的三點包括:
隨住生成式 AI 工具愈來愈成熟,呢類架構有機會成為下一代 AI 驅動音樂製作工具同數碼音訊工作站(DAW) 嘅核心技術。
Comments
0 comments