Modellen väntar inte på att talaren ska bli klar. Den tar emot en strömmande ljudsignal och genererar översatt tal steg för steg, i realtid. Google beskriver tekniken som att den ligger "blott några sekunder efter varje talare", vilket eliminerar de pinsamma pauser som kan kapa en flytande dialog .
Du som användare behöver inte själv välja källspråk. Modellen identifierar automatiskt vilket språk som talas i ögonblicket. Detta fungerar även i miljöer där flera språk blandas, vilket gör den lämplig för dynamiska, vardagliga situationer .
En avgörande del av användarupplevelsen är att den översatta rösten inte låter robotaktig. Modellen är designad för att behålla originaltalarens intonation (tonfall), tempo och tonhöjd. Resultatet är en översatt röst som låter mer som personen själv och mindre som en text-till-tal-motor .
Med stöd för över 70 språk täcker modellen tusentals dubbelriktade språkpar. Den är utformad för tvåvägskonversationer, där varje part flytande kan höra den andras ord översatta till sitt eget språk .
För utvecklare nås modellen via Gemini Live API. Den kräver ljudinmatning i ett specifikt format: rå, little-endian, 16-bitars PCM-audio med en samplingsfrekvens på 16kHz. Det översatta ljudet är också i rå 16-bitars PCM, dock med en högre samplingsfrekvens på 24kHz . Modellens kontextfönster tillåter upp till 128 000 inmatade token och 64 000 utgående token
.
Googles väg till den publika lanseringen var stegvis, där Gemini 3.5-modellfamiljen först presenterades vid utvecklarkonferensen Google I/O i maj 2026 .
gemini-3.1-flash-live-preview, släpptes den 26 mars 2026 som en del av denna iterativa utveckling gemini-3.5-live-translate-preview släpptes officiellt för utvecklare via Gemini Live API och Google AI Studio, och för konsumenter globalt genom uppdateringar av Google Översätt-appen på både Android och iOS Modellen görs tillgänglig över ett brett spektrum av Googles konsument-, utvecklar- och företagsplattformar, med olika grader av tillgång.
För konsumenter är detta det enklaste alternativet. Funktionen rullas ut globalt i Google Översätt-appen. Användare kan trycka på "Live translate"-knappen i det nedre vänstra hörnet av appskärmen, medan de bär hörlurar. På Android rullar Google även ut ett handsfree-läge, ett "lyssningsläge", som spelar upp översättningar via telefonens hörlur – du kan helt enkelt hålla telefonen mot örat som vid ett vanligt samtal .
För utvecklare finns modellen tillgänglig i en publik förhandsvisning (public preview). Detta möjliggör integrering i tredjepartsappar och tjänster via Gemini Live API med en specifik översättningskonfiguration. Google AI Studio erbjuder också en sandlådemiljö för utvecklare att prototypa och testa modellens kapacitet .
För företag är tillgången mer begränsad. Gemini 3.5 Live Translate för Google Meet lanseras i en privat förhandsvisning (private preview) för utvalda företagskunder med start i juni 2026. När den är tillgänglig kommer den automatiskt att upptäcka talarens språk och översätta det till varje deltagares föredragna språk, och kan hantera över 70 språk och 2000+ språkpar under möten. En bredare lansering planeras under senare delen av 2026 . Funktionen kommer vara tillgänglig för Google Workspace Business Standard och Plus, Enterprise Standard och Plus, samt Google AI Pro och Google AI Ultra-prenumeranter
.
Realtidskommunikationsplattformar som Agora, Fishjam, LiveKit, Pipecat och Vision Agents arbetar redan med att integrera Gemini Live API för att koppla in översättningsmodellen i sina egna medieflöden .
Ett av de mest talande exemplen från verkligheten är samarbetet med Grab, den sydostasiatiska plattformen för samåkning och hemleverans. Grab testar tekniken för att erbjuda röstöversättning i realtid mellan förare och passagerare. Företaget hanterar över 10 miljoner röstsamtal per månad, och pilotprojektet tar sig an utmaningen på en språkligt splittrad marknad rakt på .
Övergången från stegvis till strömmande översättning är ett fundamentalt skifte i användarupplevelsen. Genom att djupt integrera modellen i allmänt använda produkter som Google Översätt och Meet, och samtidigt öppna upp den för ett ekosystem av utvecklare, driver Google utvecklingen mot att direktöversättning av tal blir en standardiserad infrastruktur för global kommunikation snarare än en smal nischfunktion . Pilotprojektet med Grab illustrerar detta tydligt, där omedelbar, naturligt klingande översättning positioneras som ett verktyg snarare än en nyhet
.
All AI-genererad ljudoutput från modellen är vattenmärkt med Googles SynthID-teknologi. Syftet är att säkerställa att dess ursprung kan spåras och därigenom minska risken för missbruk – ett avgörande steg i takt med att syntetisk röstteknik blir mer övertygande och utbredd .
Comments
0 comments