Sercem Gemini 3.5 Live Translate jest ciągła, dwukierunkowa architektura strumieniowa. To zasadnicze odejście od tradycyjnych, turowych systemów tłumaczenia, które opiera się na kilku współdziałających ze sobą kluczowych funkcjach.
Model nie czeka, aż mówca skończy. Strumieniuje wejściowy sygnał audio i jednocześnie generuje przetłumaczony tekst, odtwarzając go stopniowo. Google opisuje to jako pozostawanie w tyle zaledwie o kilka sekund za każdym z mówców, co eliminuje niezręczne pauzy, które potrafią wykoleić naturalną rozmowę .
Użytkownicy nie muszą ręcznie wybierać języka źródłowego. Model automatycznie wykrywa, w jakim języku mówi dana osoba, i robi to "w locie". Działa to nawet w środowiskach, gdzie przeplata się wiele języków, co czyni go idealnym do dynamicznych, codziennych konwersacji .
Kluczowym elementem dla wygody użytkownika jest to, że przetłumaczony głos nie brzmi jak robot. Model został zaprojektowany tak, aby zachować oryginalną intonację, tempo i wysokość głosu mówcy, dzięki czemu brzmi on bardziej jak oryginalna osoba, a mniej jak automatyczny syntezator mowy .
Dzięki obsłudze ponad 70 języków, model pokrywa tysiące dwukierunkowych par. Jest przystosowany do rozmów dwustronnych, gdzie każdy z rozmówców słyszy słowa drugiej osoby płynnie tłumaczone na swój własny język .
Dla deweloperów model jest dostępny przez Gemini Live API. Wymaga wejścia audio w specyficznym formacie: surowe, 16-bitowe PCM audio o próbkowaniu 16kHz. Wyjściowe przetłumaczone audio to również surowe 16-bitowe PCM, ale o wyższej częstotliwości próbkowania, wynoszącej 24kHz . Okno kontekstowe modelu pozwala na przetworzenie do 128 000 tokenów wejściowych i 64 000 tokenów wyjściowych
.
Droga Google do tej premiery była etapowa, a rodzina modeli Gemini 3.5 została po raz pierwszy zapowiedziana na konferencji dla deweloperów Google I/O w maju 2026 roku .
gemini-3.1-flash-live-preview 26 marca 2026 roku, w ramach tego iteracyjnego rozwoju gemini-3.5-live-translate-preview został oficjalnie udostępniony deweloperom przez Gemini Live API i Google AI Studio, a także konsumentom na całym świecie poprzez aktualizacje aplikacji Tłumacz Google na Androida i iOS Model jest udostępniany w szerokiej gamie produktów konsumenckich, deweloperskich i korporacyjnych Google, z różnym poziomem dostępu.
Dla zwykłych użytkowników to najprostsze rozwiązanie. Funkcja jest globalnie wdrażana w aplikacji Tłumacz Google. Wystarczy dotknąć przycisku "Tłumacz na żywo" w lewym dolnym rogu ekranu aplikacji, mając na uszach słuchawki. Na Androidzie Google wprowadza również tryb "nasłuchiwania" bez użycia rąk, który odtwarza tłumaczenia przez głośnik słuchawki telefonu, pozwalając przyłożyć go do ucha jak przy zwykłej rozmowie .
Dla deweloperów model jest dostępny w publicznej wersji preview. Pozwala to na integrację z aplikacjami i usługami firm trzecich za pomocą Gemini Live API ze specyficzną konfiguracją tłumaczenia. Google AI Studio zapewnia również środowisko testowe dla deweloperów do prototypowania i sprawdzania możliwości modelu .
Dostęp dla firm jest bardziej ograniczony. Gemini 3.5 Live Translate dla Google Meet startuje w prywatnej wersji preview dla wybranych klientów korporacyjnych od czerwca 2026 roku. Gdy będzie dostępne, automatycznie wykryje język mówcy i przetłumaczy go na preferowany język każdego uczestnika, obsługując ponad 70 języków i ponad 2000 par językowych podczas spotkań. Szersze wdrożenie planowane jest na koniec 2026 roku . Ta funkcja będzie dostępna dla subskrybentów Google Workspace Business Standard i Plus, Enterprise Standard i Plus, a także dla użytkowników planów Google AI Pro i Google AI Ultra
.
Platformy do komunikacji w czasie rzeczywistym, takie jak Agora, Fishjam, LiveKit, Pipecat i Vision Agents, już pracują nad integracją Gemini Live API, aby włączyć model tłumaczeniowy do swoich własnych potoków medialnych .
Jednym z najbardziej fascynujących testów w świecie rzeczywistym jest ten prowadzony z Grab, platformą ride-sharingową i delivery z Azji Południowo-Wschodniej. Grab testuje tę technologię, aby zapewnić tłumaczenie głosu w czasie rzeczywistym pomiędzy kierowcami a pasażerami. Firma obsługuje ponad 10 milionów połączeń głosowych miesięcznie, a ten pilotaż bezpośrednio mierzy się z wyzwaniem, jakim jest rozdrobniony językowo rynek .
Przejście od systemu tłumaczeń turowych do strumieniowych to fundamentalna zmiana w doświadczeniu użytkownika. Poprzez głęboką integrację modelu z wszechobecnymi produktami, takimi jak Tłumacz Google i Meet, i udostępnienie go ekosystemowi deweloperów, Google wypycha tłumaczenie mowy w czasie rzeczywistym z niszy do roli standardowej warstwy infrastruktury dla globalnej komunikacji . Pilotaż z Grab doskonale ilustruje tę zmianę, pozycjonując natychmiastowe, naturalnie brzmiące tłumaczenie jako użyteczność, a nie nowinkę technologiczną
.
Całe wygenerowane przez AI audio z modelu jest znakowane wodnym znakiem cyfrowym przy użyciu technologii SynthID od Google, aby zapewnić możliwość wykrycia jego pochodzenia i zapobiec potencjalnym nadużyciom. To kluczowy krok w miarę jak technologia syntetycznego głosu staje się coraz bardziej przekonująca i powszechna .
Comments
0 comments