특히 Stable Audio 3는 압축된 잠재 오디오 표현(latent representation) 위에서 작동한다. 즉, 원본 파형(waveform)을 직접 생성하는 대신 압축된 형태의 오디오 데이터를 생성한 뒤 다시 디코딩하는 방식이다. 이 접근법은 연산 비용을 크게 줄이면서도 긴 오디오를 생성할 수 있게 해준다.
Stable Audio 3의 핵심 구조는 이미지 생성 모델에서도 널리 쓰이는 **잠재 확산 모델(latent diffusion)**이다.
여기서 중요한 역할을 하는 구성 요소가 semantic‑acoustic autoencoder다. 이 모델은 원본 오디오를 의미적 특징(음악적 구조 등)과 음향적 세부 정보로 구성된 압축된 잠재 표현으로 변환한다.
전체 생성 과정은 대략 다음 단계로 이루어진다.
Stable Audio 3의 중요한 설계 목표 중 하나는 가변 길이(variable‑length) 오디오 생성이다.
사용자는 짧은 효과음부터 수분 길이의 음악까지 원하는 길이를 지정할 수 있다. 매번 최대 길이를 생성하는 방식이 아니라 요청된 길이에 맞춰 계산량을 조정하기 때문에 효율성이 높다.
이 기능을 통해 사용자는 다음과 같은 작업을 할 수 있다.
관련 체크포인트로는 다음이 언급된다.
간단히 정리하면 다음과 같은 구조다.
Stable Audio 3의 중요한 특징은 데이터와 모델 공개 방식이다.
핵심 포인트는 다음과 같다.
이 접근은 생성형 AI에서 계속 논쟁이 되는 훈련 데이터 저작권 문제에 대응하려는 전략으로 해석된다.
AI 음악 생성 시장은 빠르게 경쟁이 치열해지고 있다.
대표적으로 다음과 같은 서비스가 있다.
이 플랫폼들은 일반 사용자를 위한 완성형 노래 생성 서비스에 가까운 제품을 제공한다.
반면 Stable Audio 3는 다른 방향을 강조한다.
Stable Audio 3는 AI 음악 모델이 단순히 곡을 생성하는 수준을 넘어 창작 도구로 발전하는 흐름을 보여준다.
특히 세 가지 특징이 주목된다.
이러한 구조는 앞으로 **생성형 AI가 내장된 차세대 디지털 오디오 워크스테이션(DAW)**이나 음악 제작 도구의 기반 기술이 될 가능성이 있다.
Comments
0 comments