Modellen venter ikke på at taleren skal bli ferdig. Den strømmer lydinnspill og genererer oversatt utdata trinnvis og samtidig. Google beskriver dette som å bare ligge "noen sekunder bak hver taler", noe som eliminerer de pinlige pausene som kan spore av en naturlig samtale .
Brukerne trenger ikke å velge kildespråk manuelt. Modellen oppdager automatisk hvilket språk som snakkes i farten. Dette gjelder selv i miljøer der flere språk blandes, noe som gjør den egnet for dynamiske samtaler i den virkelige verden .
Et avgjørende element for brukeropplevelsen er at den oversatte lyden ikke høres robotaktig ut. Modellen er designet for å bevare den opprinnelige talerens tonefall, tempo og tonehøyde, og produserer en oversatt stemme som låter mer som den originale personen og mindre som en tekst-til-tale-motor .
Med støtte for over 70 språk dekker modellen tusenvis av toveis språkpar. Den er designet for toveiskommunikasjon, der hver taler kan høre den andres ord oversatt til sitt eget språk på en smidig måte .
For utviklere får man tilgang til modellen via Gemini Live API. Den krever lydinnspill i et spesifikt format: rå, little-endian, 16-bit PCM-lyd med en samplingsrate på 16 kHz. Den oversatte lyden som kommer ut er også rå 16-bit PCM, men med en høyere samplingsrate på 24 kHz . Modellens kontekstvindu tillater opptil 128 000 innkommende tegn og 64 000 utgående tegn
.
Googles reise mot denne offentlige lanseringen har vært trinnvis, der Gemini 3.5-modellfamilien først ble annonsert på Google I/O-utviklerkonferansen i mai 2026 .
gemini-3.1-flash-live-preview 26. mars 2026, som en del av denne iterative utviklingen gemini-3.5-live-translate-preview ble offisielt sluppet til utviklere via Gemini Live API og Google AI Studio, og til forbrukere globalt gjennom oppdateringer av Google Oversetter-appen på både Android og iOS Modellen gjøres tilgjengelig på tvers av et bredt spekter av Googles forbruker-, utvikler- og bedriftsplattformer, med varierende tilgangsnivåer.
For forbrukere er dette den enkleste inngangen. Funksjonen rulles ut globalt i Google Oversetter-appen. Brukere kan trykke på "Live translate"-knappen nederst i venstre hjørne av appskjermen mens de har på seg hodetelefoner. På Android ruller Google også ut en håndfri "Lyttemodus" som spiller av oversettelser gjennom telefonens øretelefon, slik at du kan holde telefonen mot øret som en vanlig samtale .
For utviklere er modellen tilgjengelig i en offentlig forhåndsvisning. Dette gjør det mulig å integrere den i tredjepartsapper og -tjenester ved hjelp av Gemini Live API med en spesifikk oversettelseskonfigurasjon. Google AI Studio tilbyr også et sandkassemiljø for utviklere til å prototype og teste modellens muligheter .
Tilgangen for bedrifter er mer begrenset. Gemini 3.5 Live Translate for Google Meet lanseres i en privat forhåndsvisning for utvalgte bedriftskunder fra juni 2026. Når det blir tilgjengelig, vil det automatisk oppdage en talers språk og oversette det til hver enkelt deltakers foretrukne språk. Det vil støtte over 70 språk og mer enn 2000 språkpar under møter. En bredere utrulling er planlagt senere i 2026 . Denne funksjonen vil være tilgjengelig for abonnenter på Google Workspace Business Standard og Plus, Enterprise Standard og Plus, Google AI Pro og Google AI Ultra
.
Sanntidskommunikasjonsplattformer som Agora, Fishjam, LiveKit, Pipecat og Vision Agents jobber allerede med å integrere Gemini Live API for å bringe oversettelsesmodellen inn i sine egne mediepipelines .
En av de mest overbevisende testene i den virkelige verden er med Grab, den sørøstasiatiske plattformen for skyss- og matlevering. Grab kjører en pilot for teknologien for å gi sanntids taleoversettelse mellom sjåfører og passasjerer. Selskapet håndterer over 10 millioner mobilsamtaler per måned, og denne piloten tar tak i utfordringene i et språklig fragmentert marked på en direkte måte .
Overgangen fra turbasert til strømmende oversettelse er et grunnleggende brukeropplevelses-skifte. Ved å integrere modellen dypt i allestedsnærværende produkter som Google Oversetter og Meet, og åpne den opp for et utviklerøkosystem, presser Google sanntids taleoversettelse fra å være en nisjefunksjon til å bli et standard infrastruktur-lag for global kommunikasjon . Pilotprosjektet med Grab illustrerer dette skiftet tydelig, ved å posisjonere umiddelbar, naturtro oversettelse som en nyttefunksjon snarere enn en nyhet
.
All KI-generert lyd fra modellen er vannemerket med Googles SynthID-teknologi for å sikre at opprinnelsen kan spores og for å redusere potensielt misbruk. Dette er et kritisk skritt ettersom syntetisk stemmeteknologi blir mer overbevisende og utbredt .
Comments
0 comments