De kerninnovatie van Gemini 3.5 Live Translate is de continue, bidirectionele streaming-architectuur. Dit is een aanzienlijke verbetering ten opzichte van traditionele, op 'spreekbeurten' gebaseerde systemen en berust op een aantal belangrijke mogelijkheden die samenwerken.
Het model wacht niet tot een spreker is uitgepraat. Het streamt de audio-invoer en genereert tegelijkertijd stapsgewijs de vertaalde uitvoer. Google omschrijft dit als het "slechts enkele seconden achter de spreker blijven", wat de ongemakkelijke pauzes elimineert die een natuurlijk gesprek kunnen verstoren .
Je hoeft niet handmatig een brontaal te selecteren. Het model detecteert automatisch welke taal er op dat moment wordt gesproken. Dit werkt zelfs in omgevingen waar meerdere talen door elkaar worden gebruikt, waardoor het geschikt is voor alle dynamische, levensechte gesprekken .
Een cruciaal element voor de gebruikerservaring is dat de vertaalde uitvoer niet robotachtig klinkt. Het model is ontworpen om de oorspronkelijke intonatie, het tempo en de toonhoogte van de spreker te behouden, waardoor de vertaalde stem meer klinkt als de originele persoon en minder als een tekst-naar-spraakcomputer .
Met ondersteuning voor meer dan 70 talen dekt het model duizenden bidirectionele paren. Het is ontworpen voor tweerichtingsgesprekken, waarbij elke spreker de woorden van de ander vloeiend in de eigen taal kan horen vertalen .
Voor ontwikkelaars is het model toegankelijk via de Gemini Live API. De audio-invoer moet voldoen aan een specifiek formaat: onbewerkte, 'little-endian', 16-bit PCM-audio met een samplefrequentie van 16 kHz. De vertaalde audio-uitvoer is ook onbewerkte 16-bit PCM, maar met een hogere samplefrequentie van 24 kHz . Het contextvenster van het model maakt tot 128.000 invoertokens en 64.000 uitvoertokens mogelijk
.
Google's pad naar deze publieke lancering verliep gefaseerd, waarbij de Gemini 3.5-modelfamilie voor het eerst werd aangekondigd tijdens de Google I/O-ontwikkelaarsconferentie in mei 2026 .
gemini-3.1-flash-live-preview op 26 maart 2026, als onderdeel van deze stapsgewijze ontwikkeling gemini-3.5-live-translate-preview-model werd officieel uitgebracht voor ontwikkelaars via de Gemini Live API en Google AI Studio, en wereldwijd voor consumenten via updates van de Google Translate-app op zowel Android als iOS Het model wordt beschikbaar gemaakt via een breed scala aan consumenten-, ontwikkelaars- en zakelijke platformen van Google, met wisselende toegangsniveaus.
Voor de gewone gebruiker is dit de makkelijkste manier om het te gebruiken. De functie rolt wereldwijd uit in de Google Translate-app. Je tikt simpelweg op de knop "Live vertalen" linksonder in het app-scherm terwijl je een koptelefoon draagt. Op Android introduceert Google ook een handsfree "luistermodus" die vertalingen afspeelt via de luidspreker aan de bovenkant van je telefoon, waardoor je het toestel tegen je oor kunt houden alsof je een normaal telefoongesprek voert .
Voor ontwikkelaars is het model beschikbaar in een publieke preview. Dit maakt integratie in applicaties en diensten van derden mogelijk met behulp van de Gemini Live API met een specifieke vertaalconfiguratie. Google AI Studio biedt een sandbox-omgeving waar ontwikkelaars kunnen prototypen en de mogelijkheden van het model kunnen testen .
Voor bedrijven is de toegang beperkter. Gemini 3.5 Live Translate voor Google Meet wordt in juni 2026 gelanceerd in een privépreview voor geselecteerde zakelijke klanten. Zodra het beschikbaar is, zal het automatisch de taal van een spreker detecteren en deze naar de gewenste taal van elke deelnemer vertalen, met ondersteuning voor meer dan 70 talen en 2.000+ taalparen tijdens vergaderingen. Een bredere uitrol is gepland voor later in 2026 . Deze functie zal beschikbaar zijn voor abonnees van Google Workspace Business Standard en Plus, Enterprise Standard en Plus, Google AI Pro en Google AI Ultra
.
Realtime communicatieplatforms zoals Agora, Fishjam, LiveKit, Pipecat en Vision Agents integreren de Gemini Live API nu al om het vertaalmodel in hun eigen media-omgevingen te brengen .
Een van de meest overtuigende tests in de praktijk is die met Grab, het Zuidoost-Aziatische platform voor ritten en maaltijdbezorging. Grab test de technologie in een pilot om realtime spraakvertaling te bieden tussen chauffeurs en passagiers. Het bedrijf verwerkt meer dan 10 miljoen spraakoproepen per maand, en deze pilot pakt de uitdagingen van een taalkundig zeer gefragmenteerde markt direct aan .
De overstap van vertaling per spreekbeurt naar streaming is een fundamentele verschuiving in de gebruikerservaring. Door het model diep te integreren in alomtegenwoordige producten zoals Google Translate en Meet, en het open te stellen voor een ontwikkelaars-ecosysteem, tilt Google realtime spraakvertaling van een nichefunctie naar een standaard infrastructuurlaag voor wereldwijde communicatie . De pilot met Grab illustreert deze verschuiving duidelijk, waarbij onmiddellijke, natuurlijk klinkende vertaling wordt gepositioneerd als een nutsvoorziening in plaats van een noviteit
.
Alle AI-gegenereerde audio van het model is voorzien van een watermerk met Google's SynthID-technologie om de herkomst ervan traceerbaar te maken en mogelijk misbruik te beperken. Een cruciale stap nu synthetische stemtechnologie overtuigender en wijdverspreider wordt .
Comments
0 comments