Model nečeká, až mluvčí domluví. Proudově přijímá zvukový vstup a zároveň postupně generuje přeložený výstup. Google to popisuje tak, že je „pouhé sekundy za každým mluvčím“, což eliminuje nepříjemná ticha, která mohou narušit přirozenou konverzaci .
Uživatelé nemusí ručně vybírat zdrojový jazyk. Model automaticky rozpozná, jakým jazykem se mluví, a to za běhu. Funguje to i v prostředí, kde se mísí více jazyků, takže je vhodný pro dynamické konverzace v reálném světě .
Zásadním prvkem pro uživatelský komfort je, že přeložený výstup nezní roboticky. Model je navržen tak, aby zachoval původní intonaci, tempo a výšku hlasu mluvčího, takže přeložený hlas zní spíše jako původní člověk a nikoli jako syntetizátor řeči .
S podporou pro více než 70 jazyků pokrývá model tisíce obousměrných párů. Je navržen pro obousměrné konverzace, kde každý mluvčí plynule slyší slova toho druhého přeložená do svého vlastního jazyka .
Pro vývojáře je model přístupný přes Gemini Live API. Vyžaduje zvukový vstup ve specifickém formátu: surové, little-endian, 16bitové PCM audio se vzorkovací frekvencí 16 kHz. Přeložený zvukový výstup je rovněž surové 16bitové PCM, ale s vyšší vzorkovací frekvencí 24 kHz . Kontextové okno modelu umožňuje až 128 000 vstupních tokenů a 64 000 výstupních tokenů
.
Cesta Googlu k tomuto veřejnému uvedení byla postupná, přičemž rodina modelů Gemini 3.5 byla poprvé oznámena na vývojářské konferenci Google I/O v květnu 2026 .
gemini-3.1-flash-live-preview 26. března 2026, v rámci tohoto iterativního vývoje gemini-3.5-live-translate-preview byl oficiálně uvolněn pro vývojáře prostřednictvím Gemini Live API a Google AI Studio a pro spotřebitele globálně skrze aktualizace aplikace Google Translate na Androidu i iOS Model je zpřístupňován napříč širokou škálou spotřebitelských, vývojářských a firemních platforem Google s různými úrovněmi přístupu.
Pro spotřebitele je toto nejjednodušší přístupový bod. Funkce se globálně zavádí v aplikaci Google Translate. Uživatelé mohou klepnout na tlačítko „Live translate“ v levém dolním rohu obrazovky aplikace, zatímco mají nasazená sluchátka. Na Androidu Google také zavádí hands-free „režim poslechu“, který přehrává překlady přes reproduktor telefonu, takže můžete telefon držet u ucha jako při běžném hovoru .
Pro vývojáře je model dostupný ve veřejném náhledu (public preview). To umožňuje integraci do aplikací a služeb třetích stran pomocí Gemini Live API se specifickou konfigurací překladu. Google AI Studio také poskytuje sandboxové prostředí pro vývojáře k prototypování a testování schopností modelu .
Přístup pro firmy je omezenější. Gemini 3.5 Live Translate pro Google Meet se spouští v soukromém náhledu (private preview) pro vybrané firemní zákazníky od června 2026. Až bude dostupný, bude automaticky rozpoznávat jazyk mluvčího a překládat ho do preferovaného jazyka každého účastníka, přičemž během schůzek podporuje více než 70 jazyků a 2 000+ jazykových párů. Širší zavedení je plánováno na pozdější část roku 2026 . Tato funkce bude k dispozici předplatitelům Google Workspace Business Standard a Plus, Enterprise Standard a Plus, Google AI Pro a Google AI Ultra
.
Platformy pro komunikaci v reálném čase jako Agora, Fishjam, LiveKit, Pipecat a Vision Agents již pracují na integraci Gemini Live API, aby překladový model začlenily do svých vlastních mediálních pipeline .
Jeden z nejpřesvědčivějších testů v reálném světě probíhá s Grabem, platformou pro přepravu a doručování v jihovýchodní Asii. Grab pilotně testuje tuto technologii pro zajištění hlasového překladu v reálném čase mezi řidiči a cestujícími. Společnost měsíčně zpracovává přes 10 milionů hlasových hovorů a tento pilotní projekt čelí výzvě jazykově roztříštěného trhu .
Přechod od překladu na střídačku k proudovému překladu je zásadní změnou uživatelského prožitku. Hlubokou integrací modelu do všudypřítomných produktů, jako jsou Google Translate a Meet, a jeho otevřením vývojářskému ekosystému tlačí Google živý překlad řeči z okrajové funkce na standardní infrastrukturní vrstvu pro globální komunikaci . Pilotní projekt s Grabem jasně ilustruje tento posun a staví okamžitý, přirozeně znějící překlad do role užitečné služby spíše než technologické raritky
.
Veškerý AI generovaný zvuk z modelu je opatřen vodoznakem pomocí technologie SynthID od Googlu, aby byl jeho původ zjistitelný a zmírnilo se potenciální zneužití – což je kritický krok, jelikož technologie syntetického hlasu se stává přesvědčivější a rozšířenější .
Comments
0 comments