현재 ChatGPT의 음성 모드(표준 음성 모드, 고급 음성 모드)는 턴 기반(turn-based) 방식입니다. 즉, 모델은 사용자가 말을 끝낼 때까지 기다렸다가 응답을 시작합니다. 반면 GPT-Bidi-1의 양방향(BiDi) 아키텍처는 사용자의 음성과 모델 자신의 음성, 두 개의 오디오 스트림을 동시에 처리할 수 있습니다.
공개된 시연 영상에서 확인된 주요 차이점은 다음과 같습니다.
OpenAI의 내부 목표는 ChatGPT의 음성 스택(이미 GPT-5.5급 추론 능력을 갖춘 텍스트 모델에 비해 뒤처져 있었음)의 격차를 좁히고 실시간 대화 지능에서 동등한 수준을 확보하는 것이었습니다.
| 단계 | 설명 |
|---|---|
| High | 최대 추론 깊이, 응답 속도는 느림. 복잡한 분석 작업에 적합 |
| Medium | 지능과 속도 간 균형 |
| Instant | 가장 빠른 응답, 추론은 축소됨. 일상적이거나 시간에 민감한 대화에 적합 |
이 등급 체계는 ChatGPT의 텍스트 모델이 서로 다른 추론 수준을 제공하는 것과 유사하게, 사용자가 작업에 따라 상호작용의 깊이와 대기 시간을 조절할 수 있게 해줍니다. 예를 들어, 빠른 날씨 확인은 'Instant' 모드를, 깊이 있는 아이디어 회의는 'High' 모드를 사용하면 됩니다.
GPT-Bidi-1을 선택하면 음성 버블(웨이브폰 형태의 표시등)의 색상이 노란색으로 변경됩니다. 이 모델은 설정의 모델 선택기에서 기존의 표준 음성 모드, 고급 음성 모드와 함께 새로운 "Bidi (Latest)" 옵션으로 표시되며, 기존 모드를 대체하지 않고 추가됩니다.
gpt-bidi-1 참조를 처음 공개적으로 발견했습니다.
Comments
0 comments