사용자가 수동으로 원어를 선택할 필요가 없습니다. 이 모델은 입력되는 음성의 언어를 실시간으로 자동 감지합니다. 여러 언어가 혼용되는 역동적인 현실 대화 환경에서도 문제없이 작동하는 것이 특징입니다 .
사용자 경험에서 결정적인 부분은, 통역된 결과물이 로봇처럼 들리지 않는다는 점입니다. 이 모델은 원 화자의 억양, 속도감, 목소리 높낮이를 그대로 유지하도록 설계되어, 단순한 텍스트 음성 변환 엔진이 아닌 실제 사람의 목소리에 가까운 번역 음성을 생성합니다. 한국어의 높임말과 미묘한 어미 차이처럼 문화적 맥락이 중요한 언어에서도 이 특징은 큰 가치를 지닙니다 .
70개 이상의 언어를 지원하므로 수천 개의 쌍방향 언어 쌍을 포괄합니다. 상대방이 한국어로 말하면 나는 영어로 듣고, 내가 영어로 대답하면 상대방이 한국어로 듣는 식의 유려한 양방향 대화를 위해 설계되었습니다 .
개발자에게 이 모델은 제미나이 라이브 API를 통해 제공됩니다. 오디오 입력은 16kHz 샘플링 속도의 16비트 PCM, 리틀 엔디언 방식의 RAW 포맷을 요구하며, 번역된 오디오 출력은 24kHz 샘플링의 16비트 RAW PCM 포맷입니다 . 모델의 컨텍스트 윈도우는 최대 128,000개의 입력 토큰과 64,000개의 출력 토큰을 허용합니다
.
gemini-3.1-flash-live-preview 같은 관련 라이브 오디오 모델이 출시된 기록이 남아 있습니다 gemini-3.5-live-translate-preview 모델이 제미나이 라이브 API와 구글 AI 스튜디오를 통해 개발자에게, 그리고 안드로이드와 iOS의 구글 번역 앱 업데이트를 통해 전 세계 소비자에게 공식 출시되었습니다 이 모델은 구글의 소비자, 개발자, 기업 플랫폼 전반에 걸쳐 다양한 접근 수준으로 제공됩니다.
일반 사용자라면 이것이 가장 간편한 방법입니다. 구글 번역 앱 안에서 전 세계에 순차적으로 출시되고 있습니다. 이어폰을 착용한 상태에서 앱 화면 왼쪽 하단의 ‘라이브 번역(Live translate)’ 버튼을 탭 하면 됩니다. 안드로이드에서는 마치 전화 통화처럼 스마트폰을 귀에 대기만 하면 수화부 스피커로 통역 음성이 들리는 핸즈프리 ‘듣기 모드’도 추가될 예정입니다 .
개발자는 퍼블릭 프리뷰(공개 미리보기) 형태로 이 모델을 쓸 수 있습니다. 특정 번역 설정을 갖춘 제미나이 라이브 API를 통해 서드파티 앱과 서비스에 통합하는 것이 가능하며, 구글 AI 스튜디오는 개발자가 모델의 기능을 시제품화하고 시험해 볼 수 있는 테스트베드를 제공합니다 .
기업을 위한 접근은 좀 더 제한적입니다. 구글 미트를 위한 제미나이 3.5 라이브 번역은 2026년 6월부터 선별된 기업 고객을 대상으로 비공개 프리뷰로 출시됩니다. 이 기능이 활성화되면 회의 중 화자의 언어를 자동으로 감지하여 각 참가자가 선호하는 언어로 통역해 주며, 70개 이상의 언어와 2000개 이상의 언어 쌍을 지원합니다. 보다 광범위한 출시는 2026년 후반으로 계획되어 있으며 , 이 기능은 구글 워크스페이스 비즈니스 스탠다드 및 플러스, 엔터프라이즈 스탠다드 및 플러스, 구글 AI Pro 및 구글 AI Ultra 구독자에게 제공될 예정입니다
.
아고라, 피시잼, 라이브킷, 파이프캣, 비전 에이전트 같은 실시간 통신 플랫폼들은 이미 이 번역 모델을 자체 미디어 파이프라인에 도입하기 위해 제미나이 라이브 API 통합 작업을 진행 중입니다 .
가장 흥미로운 실제 적용 사례 중 하나는 동남아시아의 차량 호출 및 배달 플랫폼인 그랩과의 협업입니다. 그랩은 운전 기사와 승객 간 실시간 음성 번역을 제공하기 위해 이 기술을 시범 운영 중입니다. 그랩은 매달 1,000만 건 이상의 음성 통화를 처리하며, 이 시범 사업은 언어적으로 극도로 분절된 시장의 과제를 정면으로 돌파하려는 시도입니다. 즉, 태국어, 베트남어, 말레이어, 인도네시아어, 필리핀어가 혼재된 동남아 시장에서 실시간 통역은 더 이상 부가 기능이 아니라 인프라가 되어가고 있다는 의미입니다 .
순차 번역에서 실시간 스트리밍 통역으로의 전환은 근본적인 사용자 경험의 변화입니다. 구글 번역과 미트 같은 일상적인 제품에 이 모델을 깊숙이 통합하고, 개발자 생태계에도 개방함으로써 구글은 실시간 음성 번역을 더 이상 틈새 기능이 아닌 글로벌 커뮤니케이션의 표준 인프라 수준으로 끌어올리고 있습니다 . 그랩과의 시범 운영은 이러한 변화를 분명하게 보여주며, 순간적이고 자연스러운 통역이 일종의 ‘신기술’ 구경거리가 아닌 당연한 ‘유틸리티’가 될 미래를 시사합니다
.
번역 모델이 생성하는 모든 AI 오디오는 음성 합성 기술이 더욱 정교해지고 확산되는 가운데 그 출처를 식별하고 오용 가능성을 줄이기 위한 구글의 ‘SynthID’ 기술로 워터마킹됩니다. 이는 딥페이크 기술이나 피싱 등에 대한 사회적 염려가 커지는 가운데 중요한 신뢰 장치입니다 .
Comments
0 comments