Stable Audio 3は、近年の画像生成AIでも広く使われている**拡散モデル(diffusion model)**を音声生成に応用したものです。
基本的な流れは次のようになります。
このモデルは、音声を圧縮する際に
その結果、拡散モデルが生成した潜在データからでも自然な音質を保った音声を再構築できるようになります。
これは例えば
これは画像生成AIのインペインティングと似ており、既存の音声の一部を指定してAIに補完・置き換えさせる技術です。
例えば次のような用途があります。
この機能により、単なる生成AIではなく、音楽制作ツールのような編集ワークフローにも使える可能性があります。
主なバリエーション:
大まかな流れは次の通りです。
主なポイントは以下です。
AI音楽生成市場では、
といったサービスが、ボーカル付きの楽曲生成で人気を集めています。
一方でStable Audio 3は、次の点に重点を置いています。
Stable Audio 3は、AI音楽生成モデルの中でも特に次の3点で注目されています。
こうした設計は、将来的に**生成AIを組み込んだ音楽制作ツールやDAW(デジタル音楽制作ソフト)**の基盤として活用される可能性があります。
Comments
0 comments