Modellen venter ikke. Den streamer lydinput og bygger gradvist et oversat output på samme tid. Google beskriver det som at være "blot sekunder bag taleren", hvilket eliminerer de akavede pauser, der kan spolere en naturlig samtale. Lidt ligesom at have en tolk i øret, der konstant hvisker, hvad der bliver sagt .
Du skal ikke sidde og fumle med indstillinger for at vælge kildesprog. Modellen genkender automatisk, hvilket sprog der bliver talt, mens det sker. Det fungerer endda i miljøer, hvor der mikses mellem flere sprog – perfekt til dynamiske virkelige samtaler eller internationale møder .
Det er altafgørende for brugeroplevelsen, at den oversatte stemme ikke lyder mekanisk. Modellen er designet til at bevare den originale talers tonefald, taletempo og stemmeleje. Resultatet er en oversat stemme, der i langt højere grad lyder som personen selv, og mindre som en stiv tekst-til-tale-maskine .
Med understøttelse af over 70 sprog dækker modellen tusindvis af to-vejs sprogpar. Den er lavet til to-vejs samtaler, hvor hver taler kan høre den andens ord flydende oversat til sit eget sprog, lidt som en moderne pendant til det Babelfisk-koncept, mange drømte om for år tilbage .
For udviklere tilgås modellen via Gemini Live API. Den kræver lydinput i et ganske særligt format: rå, 16-bit PCM audio med en sample rate på 16kHz. Det oversatte lydoutput er ligeledes rå 16-bit PCM, men ved en højere sample rate på 24kHz . Modellens kontekstvindue tillader op til 128.000 input-tokens og 64.000 output-tokens, så den har rigeligt hukommelse til længere passager
.
Googles rute til offentlig lancering var trinvis. Gemini 3.5-familien blev først annonceret ved Google I/O-udviklerkonferencen i maj 2026 . Selve oversættelsesmodellens rejse ser således ud:
gemini-3.1-flash-live-preview den 26. marts 2026, som en del af denne iterative udviklingsfase gemini-3.5-live-translate-preview blev officielt frigivet til udviklere via Gemini Live API og Google AI Studio, og til forbrugere globalt via opdateringer til Google Oversæt-appen på både Android og iOS Modellen bliver gjort tilgængelig på tværs af en bred vifte af Googles forbruger-, udvikler- og virksomhedsplatforme.
For almindelige brugere er dette den letteste adgang. Funktionen rulles ud globalt i Google Oversæt-appen. Med et par hovedtelefoner i ørerne trykker du blot på knappen "Live-oversæt" i nederste venstre hjørne af app-skærmen. På Android ruller Google også en håndfri "lyttetilstand" ud, der afspiller oversættelser gennem telefonens ørestykke, så du kan holde mobilen op til øret, præcis som et helt almindeligt opkald .
For udviklere er modellen tilgængelig i en offentlig preview. Det gør det muligt at integrere den i tredjeparts-apps og tjenester ved at bruge Gemini Live API med en specifik oversættelseskonfiguration. Google AI Studio tilbyder også et sandkasse-miljø, hvor udviklere kan lave prototyper og teste modellens evner .
For virksomheder er adgangen mere begrænset. Gemini 3.5 Live Translate til Google Meet bliver lanceret som privat preview for udvalgte erhvervskunder fra juni 2026. Når det bliver tilgængeligt, vil det automatisk registrere en talers sprog og oversætte det til hver enkelt mødedeltagers foretrukne sprog med understøttelse af over 70 sprog og 2.000+ sprogpar under live-møder. En bredere udrulning er planlagt til senere i 2026 . Funktionen kommer til at være klar for abonnenter på Google Workspace Business Standard og Plus, Enterprise Standard og Plus, Google AI Pro og Google AI Ultra
.
Platforme til realtids-kommunikation som Agora, Fishjam, LiveKit, Pipecat og Vision Agents er allerede i gang med at integrere Gemini Live API for at få oversættelsesmodellen ind i deres egne medie-pipelines. Det åbner for et hav af nye apps og tjenester med indbygget tolkefunktion .
En af de mest spændende tests kommer fra den virkelige verden. Grab, den sydøstasiatiske platform for delebiler og madudbringning, er i fuld gang med at pilotteste teknologien til at levere taleoversættelse i realtid mellem chauffører og passagerer. Selskabet håndterer over 10 millioner taleopkald om måneden, og dette pilotprojekt skal løse de kæmpe udfordringer i et stærkt sprogligt fragmenteret marked som Sydøstasien .
Springet fra sætning-for-sætning-oversættelse til strømmende oversættelse er et fundamentalt skifte i brugeroplevelsen. Ved at integrere modellen dybt i allestedsnærværende produkter som Google Oversæt og Meet, og åbne den for et helt udvikler-økosystem, presser Google realtids taleoversættelse fra at være en niche-funktion til at blive en basal infrastruktur-del i global kommunikation . Pilotprojektet med Grab illustrerer dette skifte tydeligt og positionerer naturligt klingende simultantolkning som en basal nytteværdi i stedet for en teknologisk gimmick
.
Al AI-genereret lyd fra modellen er vandmærket med Googles SynthID-teknologi, så man kan spore dens oprindelse og mindske risikoen for misbrug. Det er et kritisk skridt i en tid, hvor syntetiske stemmer bliver mere overbevisende og udbredte .
Comments
0 comments