JawabanDipublikasikan2 bulan yang laluLast edited bulan lalu16 sumber

Stable Audio 3: Model AI Baru Stability AI untuk Membuat dan Mengedit Musik

Stable Audio 3 adalah keluarga model latent‑diffusion (Small, Medium, Large) yang mampu membuat dan mengedit musik atau efek suara dengan panjang variabel hingga sekitar enam menit.[1][8] Model bekerja pada representasi audio terkompresi menggunakan semantic‑acoustic autoencoder, sehingga generasi audio panjang menj...

Cari dan periksa fakta dengan Studio Global AI Jelajahi lebih banyak halaman Trending

Illustration representing AI music generation and diffusion-based audio models — How does Stability AI’s new Stable Audio 3 work, what models are included in the release, what technical improvements does it introduce (sucStable Audio 3 introduces a family of latent‑diffusion models capable of generating and editing multi‑minute audio clips.
AI Perintah
Create a landscape editorial hero image for this Studio Global article: How does Stability AI’s new Stable Audio 3 work, what models are included in the release, what technical improvements does it introduce (suc. Article summary: Stable Audio 3 is Stability AI’s new family of fast latent-diffusion audio models for variable-length music and sound generation, with editing support such as inpainting.[1] The release includes small, medium, and large . Topic tags: general, academic, general web. Reference image context from search candidates: Reference image 1: visual subject "# Announcing Stable Audio: A Generative AI Music Service. We’re pleased to announce the release of Stable Audio, a new generative AI music service. Stable Audio is a collaboration" source context "Announcing Stable Audio: A Generative AI Music Service" Reference image 2: visual subject "## **For** **everywhere** **your
openai.com

Industri AI pembuat musik berkembang sangat cepat. Salah satu pemain terbaru adalah Stable Audio 3 dari Stability AI—sebuah keluarga model generatif yang dirancang untuk membuat maupun mengedit musik dan efek suara langsung dari prompt teks. Sistem ini juga dirancang cukup efisien untuk menghasilkan audio berdurasi beberapa menit, sesuatu yang sebelumnya cukup mahal secara komputasi.

Berbeda dari banyak sistem lain yang sepenuhnya tertutup, sebagian model dalam keluarga Stable Audio 3 dirilis dengan open weights dan data pelatihan berlisensi, sehingga dapat digunakan dan dikembangkan lebih lanjut oleh peneliti maupun developer.

Apa Itu Stable Audio 3

Stable Audio 3 adalah keluarga model latent diffusion untuk generasi dan pengeditan audio. Model ini dirilis dalam tiga ukuran utama: Small, Medium, dan Large.

Dengan model ini, pengguna dapat:

Membuat musik atau efek suara dari prompt
Memodifikasi rekaman audio yang sudah ada
Memperpanjang atau memperbaiki potongan audio

Alih‑alih menghasilkan gelombang audio mentah secara langsung, sistem bekerja pada representasi audio yang sudah dikompresi (latent space). Pendekatan ini menurunkan kebutuhan komputasi dan membuat generasi audio panjang menjadi lebih praktis.

Dua fitur penting yang disorot dalam rilis ini adalah:

Variable‑length generation, yaitu kemampuan membuat audio dengan durasi berbeda tanpa harus selalu menghasilkan durasi maksimum.
Audio inpainting, yang memungkinkan pengeditan pada bagian tertentu dari klip audio.

Dengan fitur tersebut, Stable Audio 3 bukan hanya generator musik, tetapi juga alat untuk mengedit dan memperluas rekaman audio.

Arsitektur Inti: Semantic‑Acoustic Latent Diffusion

Stable Audio 3 menggunakan pendekatan yang mirip dengan generator gambar modern: model diffusion yang berjalan di ruang laten (latent space).

Komponen kuncinya adalah semantic‑acoustic autoencoder, sebuah model yang mengubah audio mentah menjadi representasi terkompresi yang tetap menyimpan informasi musikal dan detail akustik.

Alur kerjanya secara sederhana:

Kompresi audio – Autoencoder mengubah waveform audio menjadi representasi laten yang lebih ringkas.
Generasi diffusion – Model diffusion membuat atau memodifikasi representasi audio tersebut berdasarkan prompt atau kondisi lain.
Dekode kembali – Representasi laten yang dihasilkan diubah kembali menjadi waveform audio penuh.

Karena proses diffusion berjalan pada data yang sudah dipadatkan, model bisa menghasilkan audio lebih panjang dengan biaya komputasi lebih rendah dibanding generasi langsung dari waveform.

Generasi Durasi Variabel dan Editing Audio

Salah satu tujuan desain utama Stable Audio 3 adalah mendukung durasi audio yang fleksibel.

Model dapat membuat:

efek suara pendek
loop musik
komposisi musik beberapa menit

Tanpa fitur ini, sistem harus selalu menghitung audio berdurasi maksimum—even jika pengguna hanya membutuhkan beberapa detik suara. Variable‑length generation menghindari pemborosan komputasi tersebut.

Selain itu, model mendukung audio inpainting, yang memungkinkan:

mengganti bagian tertentu dari track
memperpanjang audio yang sudah ada
memperbaiki bagian yang rusak atau hilang

Fitur ini membuat model lebih mirip alat produksi audio generatif daripada sekadar generator lagu dari teks.

Varian Model: Small, Medium, dan Large

Stable Audio 3 dirilis sebagai keluarga model dengan ukuran berbeda untuk berbagai kebutuhan komputasi dan penggunaan.

Stable Audio 3 Small

Dirancang untuk efisiensi dan penggunaan pada perangkat yang lebih terbatas.
Beberapa varian bahkan dioptimalkan agar bisa berjalan pada perangkat portabel atau mobile.
Bobot model tersedia secara terbuka di repositori model seperti Hugging Face.

Stable Audio 3 Medium

Model yang lebih kuat untuk komposisi lagu lengkap dan generasi audio umum.
Open weights tersedia untuk publik.

Dua varian yang sering disebut:

Stable Audio 3 Medium – model siap digunakan untuk generasi audio.
Stable Audio 3 Medium Base – checkpoint dasar untuk penelitian atau fine‑tuning.

Stable Audio 3 Large

Model paling kuat dalam keluarga ini.
Ditujukan untuk produksi audio skala perusahaan (enterprise).
Tidak dirilis dengan bobot unduhan publik; tersedia melalui API Stability AI atau deployment enterprise.

Secara keseluruhan, sistem dalam keluarga Stable Audio 3 dapat menghasilkan audio hingga sekitar enam menit, tergantung konfigurasi dan model yang digunakan.

Pendekatan Pelatihan Model

Stable Audio 3 menggunakan pipeline pelatihan multi‑tahap yang memisahkan pelatihan komponen utama sebelum digabungkan menjadi sistem generasi penuh.

Secara garis besar:

Autoencoder dilatih untuk mengompresi dan merekonstruksi audio dengan akurat.
Model diffusion dilatih untuk menghasilkan representasi audio laten berdasarkan prompt atau metadata.
Tahap tambahan digunakan untuk meningkatkan kualitas generasi dan efisiensi model.

Pendekatan bertahap ini membantu menjaga kualitas audio sekaligus memungkinkan model bekerja pada representasi yang jauh lebih efisien dibanding waveform mentah.

Open Weights dan Data Pelatihan Berlisensi

Salah satu hal yang paling ditekankan dalam rilis Stable Audio 3 adalah pendekatan lisensi dan keterbukaan model.

Stability AI menyatakan bahwa model dilatih menggunakan data yang sepenuhnya berlisensi, dan pengguna tetap memiliki hak atas audio yang dihasilkan.

Beberapa poin penting:

Model Small dan Medium dirilis dengan open weights.
Output yang dihasilkan dapat digunakan secara komersial di bawah Stability AI Community License.
Perusahaan besar mungkin memerlukan lisensi enterprise tambahan.

Pendekatan ini merupakan upaya untuk menjawab perdebatan besar di industri AI terkait hak cipta dan sumber data pelatihan.

Posisi Stable Audio 3 di Persaingan AI Music

Bidang AI musik saat ini semakin ramai dengan pemain seperti Suno dan Udio, yang fokus pada pembuatan lagu lengkap dengan vokal melalui platform konsumen.

Strategi Stability AI sedikit berbeda.

Alih‑alih hanya membangun aplikasi musik viral, Stable Audio 3 difokuskan sebagai model dasar (foundation model) untuk generasi audio yang bisa digunakan oleh:

peneliti
developer
musisi
pembuat alat kreatif

Fokus utamanya meliputi:

open weights untuk eksperimen dan pengembangan
dataset berlisensi
fitur editing audio yang fleksibel

Pendekatan ini menempatkan Stable Audio 3 lebih sebagai platform teknologi audio generatif dibanding sekadar aplikasi pembuat lagu otomatis.

Mengapa Rilis Ini Penting

Stable Audio 3 menunjukkan arah baru dalam generasi audio AI: bukan hanya membuat lagu dari prompt, tetapi menyediakan alat kreatif yang dapat diedit, diperpanjang, dan diintegrasikan ke workflow produksi audio.

Tiga hal yang menonjol dari rilis ini:

generasi audio multi‑menit yang efisien melalui latent diffusion
kemampuan editing audio seperti inpainting
ketersediaan open‑weight models untuk komunitas

Jika tren ini berlanjut, model seperti Stable Audio 3 bisa menjadi fondasi bagi generasi berikutnya dari software produksi musik dan digital audio workstation berbasis AI.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Cari dan periksa fakta dengan Studio Global AI

Orang-orang juga bertanya

Apa jawaban singkat untuk "Stable Audio 3: Model AI Baru Stability AI untuk Membuat dan Mengedit Musik"?

Stable Audio 3 adalah keluarga model latent‑diffusion (Small, Medium, Large) yang mampu membuat dan mengedit musik atau efek suara dengan panjang variabel hingga sekitar enam menit.[1][8]

Apa poin penting yang harus divalidasi terlebih dahulu?

Apa yang harus saya lakukan selanjutnya dalam latihan?

Stability AI memposisikan Stable Audio 3 sebagai alternatif yang lebih terbuka dibanding platform seperti Suno atau Udio, dengan open weights, dataset berlisensi, dan hak komersial atas hasil audio.[4][8]

Sumber

← Back to Trending