Модель не чекає, поки співрозмовник закінчить речення. Вона передає аудіо на вхід та одразу генерує переклад. Google описує це як відставання «на лічені секунди від кожного мовця», що усуває незграбні паузи, здатні зіпсувати природну розмову .
Вам більше не потрібно вручну обирати мову джерела. Модель автоматично визначає, якою мовою говорять, на льоту. Це працює навіть у середовищі, де змішуються кілька мов, що робить її ідеальною для динамічних, реальних розмов .
Надзвичайно важливо для досвіду користувача: перекладений голос не звучить як робот. Модель розроблена так, щоб зберігати оригінальну інтонацію, темп і висоту голосу мовця. Результат — перекладений голос звучить більше як оригінал, ніж як текст від комп'ютера .
Завдяки підтримці понад 70 мов, модель охоплює тисячі двосторонніх пар. Вона створена для діалогів, де кожен співрозмовник може чути переклад слів іншого своєю рідною мовою без затримок .
Для розробників модель доступна через Gemini Live API. Вона вимагає аудіо-вхід спеціального формату: необроблений 16-бітний PCM-аудіо з частотою дискретизації 16 кГц (моно, little-endian). Аудіо на виході — це також необроблений 16-бітний PCM, але з вищою частотою 24 кГц . Контекстне вікно дозволяє обробляти до 128 000 вхідних токенів та генерувати до 64 000 вихідних
.
Шлях до цього публічного запуску був поступовим. Сімейство моделей Gemini 3.5 було вперше анонсовано на конференції розробників Google I/O у травні 2026 року .
gemini-3.1-flash-live-preview як частини цієї ітеративної розробки gemini-3.5-live-translate-preview офіційно випущена для розробників через Gemini Live API та Google AI Studio, а для споживачів — через оновлення програми Google Перекладач на Android та iOS Модель стає доступною на широкому спектрі споживчих, розробницьких та корпоративних платформ Google з різним рівнем доступу.
Для звичайних користувачів це найпростіший спосіб. Функція розгортається глобально у додатку Google Перекладач. Увімкніть навушники та натисніть кнопку «Синхронний переклад» у лівому нижньому кутку екрана. На Android також з'являється новий режим вільного прослуховування, що транслює переклад через розмовний динамік телефону — ви можете піднести його до вуха, як під час звичайної розмови .
Для розробників модель доступна у форматі публічного попереднього перегляду (public preview). Це дозволяє інтегрувати Gemini 3.5 Live Translate у сторонні застосунки та сервіси через Gemini Live API зі спеціальною конфігурацією перекладу. Google AI Studio надає пісочницю для прототипування та тестування можливостей моделі .
Доступ для бізнесу більш обмежений. Gemini 3.5 Live Translate для Google Meet запускається у форматі закритого попереднього перегляду (private preview) для окремих корпоративних клієнтів, починаючи з червня 2026 року. Коли функція запрацює, вона автоматично визначатиме мову спікера та перекладатиме її на обрану мову кожного учасника, підтримуючи понад 70 мов та 2000+ мовних пар під час зустрічей. Ширше розгортання заплановане на кінець 2026 року . Функція буде доступна передплатникам Google Workspace Business Standard і Plus, Enterprise Standard і Plus, а також Google AI Pro та Google AI Ultra
.
Платформи для комунікацій у реальному часі, такі як Agora, Fishjam, LiveKit, Pipecat та Vision Agents, вже працюють над інтеграцією Gemini Live API, щоб впровадити модель перекладу у свої медіа-канали .
Один із найбільш переконливих реальних тестів проводить Grab, платформа для райд-хейлінгу та доставки з Південно-Східної Азії. Grab тестує технологію для забезпечення голосового перекладу в реальному часі між водіями та пасажирами. Компанія обробляє понад 10 мільйонів голосових дзвінків на місяць, і цей пілотний проєкт безпосередньо вирішує проблему лінгвістично роздробленого ринку .
Перехід від покрокового до потокового перекладу — це фундаментальна зміна користувацького досвіду. Глибоко інтегруючи модель у такі повсюдні продукти, як Google Перекладач та Google Meet, і відкриваючи її для екосистеми розробників, Google перетворює синхронний переклад мови з нішевої функції на стандартний шар інфраструктури для глобальної комунікації . Пілотний проєкт із Grab яскраво ілюструє цей зсув, позиціонуючи миттєвий, природний переклад як зручний інструмент, а не як дивину
.
Усе згенероване ШІ аудіо від моделі має водяний знак за допомогою технології Google SynthID, щоб гарантувати можливість виявлення його походження та зменшити ризик зловживань. Це критичний крок, оскільки технології синтетичного голосу стають дедалі переконливішими та поширенішими .
Comments
0 comments