Модель не ждёт, когда говорящий закончит. Она непрерывно получает звук и одновременно с этим пошагово генерирует перевод. Как описывают в Google, система «отстаёт от говорящего всего на несколько секунд», что убирает неловкие паузы, способные разрушить живую беседу .
Пользователю не нужно вручную указывать, на каком языке говорит собеседник. Модель на лету сама распознаёт язык речи. Это работает даже в среде, где смешивается несколько языков, — то есть подходит для реальных, динамичных разговоров .
Очень важный для пользовательского опыта момент: переведённая речь не звучит как робот. Система старается сохранить оригинальные интонацию, темп и высоту голоса говорящего — перевод звучит ближе к голосу самого человека, а не к бездушному синтезатору речи .
При поддержке более 70 языков модель охватывает тысячи двусторонних языковых пар и изначально рассчитана на двусторонние разговоры, в которых каждый слышит слова другого уже на своём языке .
Для разработчиков модель доступна через Gemini Live API. Требуется аудиовход в формате RAW: 16-битный PCM, моно, little-endian, с частотой дискретизации 16 кГц. Переведённый аудиовыход — тоже 16-битный PCM, но уже на частоте 24 кГц . Контекстное окно позволяет подавать до 128 000 входных токенов и получать до 64 000 выходных
.
Путь Google к этому релизу был поэтапным, а само семейство моделей Gemini 3.5 было анонсировано на конференции Google I/O в мае 2026 года .
gemini-3.1-flash-live-preview gemini-3.5-live-translate-preview официально открыта разработчикам через Gemini Live API и Google AI Studio, а массовому потребителю — через обновления Google Переводчика на Android и iOS Модель разворачивают сразу в нескольких потребительских, разработочных и корпоративных продуктах Google — с разным уровнем доступа.
Для обычного пользователя это самый простой способ попробовать. Функция становится доступна глобально внутри самого приложения Google Переводчик. Достаточно надеть любые наушники и нажать кнопку «Live translate» в левом нижнем углу экрана. На Android также внедряется «hands‑free» режим прослушивания — перевод звучит через разговорный динамик телефона, который можно поднести к уху, как при обычном звонке .
Для разработчиков открыт публичный предварительный доступ (preview). Это позволяет встраивать перевод в сторонние приложения и сервисы через Gemini Live API с особой конфигурацией. Google AI Studio даёт «песочницу» для прототипирования и тестирования модели .
Бизнес-доступ пока ограничен: Gemini 3.5 Live Translate для видеовстреч в Google Meet запускается с июня 2026 года в режиме закрытого предварительного доступа (private preview) для избранных корпоративных клиентов. Технология будет автоматически определять язык говорящего и переводить его на предпочитаемый язык каждого участника встречи — с поддержкой 70+ языков и 2 000+ языковых пар. Более широкая раздача запланирована до конца 2026 года . Функция будет включена в подписки: Google Workspace Business Standard и Plus, Enterprise Standard и Plus, Google AI Pro и Google AI Ultra
.
Платформы для коммуникаций в реальном времени — Agora, Fishjam, LiveKit, Pipecat, Vision Agents — уже занимаются интеграцией Gemini Live API, чтобы встроить модель перевода прямо в свои медиа-конвейеры .
Один из самых показательных примеров практического использования — сервис Grab (Юго-Восточная Азия), объединяющий такси и доставку. Платформа пилотирует технологию для голосового перевода между водителями и пассажирами в реальном времени. Grab обслуживает больше 10 миллионов голосовых звонков в месяц — и этот пилот в лоб решает проблему лингвистически раздробленного рынка (тайский, вьетнамский, малайский, индонезийский, тагальский и т.д.) .
Переход от пошагового к непрерывному, потоковому переводу — это фундаментальный сдвиг в пользовательском опыте. Глубоко зашивая модель в такие массовые продукты, как Google Переводчик и Google Meet, и одновременно открывая её экосистеме разработчиков, Google превращает мгновенный голосовой перевод из нишевой «фишки» в элемент базовой инфраструктуры глобальной коммуникации . Пилот с Grab наглядно подтверждает этот сдвиг: мгновенный, естественно звучащий перевод становится чем-то вроде коммунальной услуги, а не диковиной
.
Весь AI-аудиовыход модели водяными знаками метится с помощью технологии Google SynthID — чтобы можно было отследить происхождение синтезированной речи и снизить риски злоупотреблений. Это критически важный шаг по мере того, как синтетический голос становится всё более убедительным и распространённым .
Comments
0 comments