答え公開済み2 か月前Last edited 先月16 ソース

Stable Audio 3の仕組み：Stability AIの音楽生成モデルの進化

Stable Audio 3はSmall・Medium・Largeの3種類からなる潜在拡散型の音声生成モデルで、音楽や効果音を数分単位で生成・編集できる。[1][8] セマンティック・アコースティックオートエンコーダーによる圧縮潜在空間で生成するため、計算コストを抑えつつ長い音声を生成できる。[1][2] SmallとMediumはオープンウェイトで公開され、ライセンス済みデータで学習されている点が、SunoやUdioなどの競合サービスとの差別化ポイントとなっている。[4][8]

Studio Global AIで検索して事実確認さらにトレンドページを見る

Illustration representing AI music generation and diffusion-based audio models — How does Stability AI’s new Stable Audio 3 work, what models are included in the release, what technical improvements does it introduce (sucStable Audio 3 introduces a family of latent‑diffusion models capable of generating and editing multi‑minute audio clips.
AI プロンプト
Create a landscape editorial hero image for this Studio Global article: How does Stability AI’s new Stable Audio 3 work, what models are included in the release, what technical improvements does it introduce (suc. Article summary: Stable Audio 3 is Stability AI’s new family of fast latent-diffusion audio models for variable-length music and sound generation, with editing support such as inpainting.[1] The release includes small, medium, and large . Topic tags: general, academic, general web. Reference image context from search candidates: Reference image 1: visual subject "# Announcing Stable Audio: A Generative AI Music Service. We’re pleased to announce the release of Stable Audio, a new generative AI music service. Stable Audio is a collaboration" source context "Announcing Stable Audio: A Generative AI Music Service" Reference image 2: visual subject "## **For** **everywhere** **your
openai.com

AIによる音楽生成の分野は急速に進化しています。その中で**Stability AIが発表した「Stable Audio 3」**は、音楽や効果音をテキスト指示から生成・編集できる新しいAIモデル群として注目されています。

このシステムの特徴は、数分間の音声を生成できる効率的な拡散モデルと、研究者や開発者が利用できるオープンウェイトモデルの提供にあります。

以下では、Stable Audio 3の仕組み、モデル構成、技術的特徴、そしてAI音楽生成市場における位置づけを整理します。

Stable Audio 3とは

Stable Audio 3は、音楽や音声を生成・編集できる潜在拡散モデル（latent diffusion model）のファミリーです。モデルは用途や計算環境に合わせて以下の3サイズで提供されています。

Stable Audio 3 Small
Stable Audio 3 Medium
Stable Audio 3 Large

これらのモデルは、テキストプロンプトから楽曲や効果音を生成するだけでなく、既存の音声を編集する機能も備えています。

また設定によっては最大およそ6分程度の音声生成が可能とされています。

潜在拡散モデルによる音声生成

Stable Audio 3は、近年の画像生成AIでも広く使われている**拡散モデル（diffusion model）**を音声生成に応用したものです。

ただし、生の音声波形を直接生成するのではなく、圧縮された潜在空間（latent space）上で生成処理を行う点が重要な特徴です。

基本的な流れは次のようになります。

音声の圧縮
セマンティック・アコースティックオートエンコーダーが音声を潜在表現に変換する。
拡散モデルによる生成
テキストなどの条件に基づき、潜在空間上で新しい音声表現を生成する。
デコード
潜在表現を再び波形音声に変換する。

この方法により、計算量を抑えながら長い音声を生成できるという利点があります。

セマンティック・アコースティックオートエンコーダー

Stable Audio 3の中核技術の一つが、**Semantic‑Acoustic Autoencoder（セマンティック・アコースティックオートエンコーダー）**です。

このモデルは、音声を圧縮する際に

音楽的意味（リズム、構造など）
音響的特徴（音色、質感など）

の両方を保持したまま潜在表現に変換します。

その結果、拡散モデルが生成した潜在データからでも自然な音質を保った音声を再構築できるようになります。

可変長生成（Variable‑Length Generation）

Stable Audio 3では、可変長の音声生成がネイティブにサポートされています。

これは例えば

数秒の効果音
数分の楽曲

といった異なる長さの音声を、必要な長さだけ計算して生成できる仕組みです。

通常、最大長に合わせて常に生成する方式だと計算コストが無駄になります。可変長生成によって、その問題を回避できます。

音声インペインティング（Audio Inpainting）

Stable Audio 3は音声インペインティングにも対応しています。

これは画像生成AIのインペインティングと似ており、既存の音声の一部を指定してAIに補完・置き換えさせる技術です。

例えば次のような用途があります。

トラックの一部を差し替える
音声の欠損部分を補修する
曲を続きから延長する

この機能により、単なる生成AIではなく、音楽制作ツールのような編集ワークフローにも使える可能性があります。

Small・Medium・Largeのモデル構成

Stable Audio 3は、用途や性能に応じて3つのモデルサイズが用意されています。

Stable Audio 3 Small

軽量モデル
モバイルや軽量環境での生成を想定
オープンウェイト公開あり

Stable Audio 3 Medium

フル楽曲生成を想定した標準モデル
Hugging Faceで公開
研究や開発向けにも利用可能

主なバリエーション：

Stable Audio 3 Medium
Stable Audio 3 Medium Base（研究用途ベースモデル）

Stable Audio 3 Large

最も高性能なモデル
プロダクション用途を想定
APIやエンタープライズ環境向け提供

Largeモデルのウェイトは一般公開されておらず、APIまたは企業向けデプロイで利用する形になります。

学習方法：マルチステージのトレーニングパイプライン

Stable Audio 3は、複数段階のトレーニングプロセスで構築されています。

大まかな流れは次の通りです。

オートエンコーダーを訓練して音声圧縮を学習
拡散モデルを訓練して潜在音声を生成
追加の最適化段階で品質と効率を改善

このようにコンポーネントを段階的に学習させることで、長時間音声生成と高品質音声の両立を目指しています。

オープンウェイトとライセンス済みデータ

Stable Audio 3の大きな特徴の一つが、ライセンス済みデータでの学習とオープンウェイトの公開です。

主なポイントは以下です。

SmallとMediumモデルはダウンロード可能なオープンウェイト
学習データはライセンス取得済み
生成した音声の権利はユーザーが保有

生成物はStability AI Community Licenseの下で商用利用も可能とされています（一定規模以上の企業はエンタープライズ契約）。

Suno・Udioとの競争の中での位置づけ

AI音楽生成市場では、

Suno
Udio

といったサービスが、ボーカル付きの楽曲生成で人気を集めています。

一方でStable Audio 3は、次の点に重点を置いています。

研究者・開発者向けのオープンウェイト
ライセンス済みデータの強調
音声生成だけでなく編集機能の提供

つまり、一般向けのアプリというより、音声生成の基盤モデル（foundation model）としての役割を目指した設計といえます。

まとめ

Stable Audio 3は、AI音楽生成モデルの中でも特に次の3点で注目されています。

潜在拡散モデルによる長時間音声生成
インペインティングなどの音声編集機能
Small・Mediumのオープンウェイト公開

こうした設計は、将来的に**生成AIを組み込んだ音楽制作ツールやDAW（デジタル音楽制作ソフト）**の基盤として活用される可能性があります。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

人々も尋ねます