Die Kerninnovation von Gemini 3.5 Live Translate ist seine kontinuierliche, bidirektionale Streaming-Architektur. Dies ist eine deutliche Abkehr von traditionellen, wechselbasierten Übersetzungssystemen und beruht auf mehreren entscheidenden Fähigkeiten, die nahtlos zusammenwirken.
Das Modell wartet nicht, bis ein Sprecher fertig ist. Es streamt den Audioeingang und generiert gleichzeitig inkrementell die übersetzte Ausgabe. Google beschreibt dies so, dass es „nur wenige Sekunden hinter jedem Sprecher zurückbleibt", wodurch die unangenehmen Pausen vermieden werden, die ein natürliches Gespräch entgleisen lassen können .
Nutzer müssen die Ausgangssprache nicht manuell auswählen. Das Modell erkennt automatisch im laufenden Betrieb, welche Sprache gesprochen wird. Dies funktioniert sogar in Umgebungen, in denen mehrere Sprachen gemischt werden, und eignet sich daher für dynamische, reale Gespräche .
Ein entscheidendes Element für die Nutzererfahrung ist, dass die übersetzte Ausgabe nicht roboterhaft klingt. Das Modell ist so konzipiert, dass es die ursprüngliche Intonation, das Sprechtempo und die Tonhöhe des Sprechers beibehält und eine übersetzte Stimme erzeugt, die mehr nach der Originalperson und weniger nach einer Text-to-Speech-Engine klingt .
Mit der Unterstützung von über 70 Sprachen deckt das Modell Tausende von bidirektionalen Paaren ab. Es ist für wechselseitige Gespräche konzipiert, bei denen jeder Sprecher die Worte des anderen flüssig in seine eigene Sprache übersetzt hören kann .
Für Entwickler ist das Modell über die Gemini Live API zugänglich. Es erfordert einen Audioeingang in einem bestimmten Format: unkomprimiertes, Little-Endian, 16-Bit-PCM-Audio mit einer Abtastrate von 16 kHz. Die übersetzte Audioausgabe ist ebenfalls unkomprimiertes 16-Bit-PCM, jedoch mit einer höheren Abtastrate von 24 kHz . Das Kontextfenster des Modells erlaubt bis zu 128.000 Eingabe-Token und 64.000 Ausgabe-Token
.
Googles Weg zu diesem öffentlichen Start verlief in mehreren Phasen, wobei die Modellfamilie Gemini 3.5 erstmals auf der Entwicklerkonferenz Google I/O im Mai 2026 angekündigt wurde .
gemini-3.1-flash-live-preview am 26. März 2026, als Teil dieser iterativen Entwicklung gemini-3.5-live-translate-preview wurde offiziell für Entwickler über die Gemini Live API und Google AI Studio sowie weltweit für Verbraucher durch Updates der Google Übersetzer-App auf Android und iOS veröffentlicht Das Modell wird auf einer breiten Palette von Googles Verbraucher-, Entwickler- und Unternehmensplattformen mit unterschiedlichen Zugangsebenen verfügbar gemacht.
Für Verbraucher ist dies der einfachste Zugangspunkt. Die Funktion wird weltweit in der Google Übersetzer-App ausgerollt. Nutzer können auf die Schaltfläche „Live übersetzen" in der unteren linken Ecke des App-Bildschirms tippen, während sie Kopfhörer tragen. Auf Android führt Google zudem einen freihändigen „Hörmodus" ein, der Übersetzungen über den Telefonlautsprecher wiedergibt, sodass Sie das Telefon wie bei einem normalen Anruf ans Ohr halten können .
Für Entwickler ist das Modell in einer öffentlichen Vorschau verfügbar. Dies ermöglicht die Integration in Anwendungen und Dienste von Drittanbietern über die Gemini Live API mit einer spezifischen Übersetzungskonfiguration. Google AI Studio bietet zudem eine Sandbox-Umgebung für Entwickler, um Prototypen zu erstellen und die Fähigkeiten des Modells zu testen .
Für Unternehmen ist der Zugang eingeschränkter. Gemini 3.5 Live Translate für Google Meet startet ab Juni 2026 als private Vorschau für ausgewählte Unternehmenskunden. Wenn verfügbar, erkennt es automatisch die Sprache eines Sprechers und übersetzt sie in die bevorzugte Sprache jedes Teilnehmers, wobei über 70 Sprachen und 2.000+ Sprachpaare während Besprechungen unterstützt werden. Eine breitere Einführung ist für später im Jahr 2026 geplant . Diese Funktion wird für Abonnenten von Google Workspace Business Standard und Plus, Enterprise Standard und Plus, Google AI Pro und Google AI Ultra verfügbar sein
.
Echtzeit-Kommunikationsplattformen wie Agora, Fishjam, LiveKit, Pipecat und Vision Agents arbeiten bereits an der Integration der Gemini Live API, um das Übersetzungsmodell in ihre eigenen Medien-Pipelines einzubinden .
Einer der überzeugendsten realen Tests findet bei Grab statt, der südostasiatischen Plattform für Fahrdienste und Lieferungen. Grab testet die Technologie, um Echtzeit-Sprachübersetzung zwischen Fahrern und Fahrgästen zu ermöglichen. Das Unternehmen wickelt monatlich über 10 Millionen Sprachanrufe ab, und dieser Pilotversuch geht die Herausforderung eines sprachlich stark fragmentierten Marktes direkt an .
Der Wechsel von wechselbasierter zu fließender Übersetzung ist ein grundlegender Wandel der Nutzererfahrung. Durch die tiefe Integration des Modells in allgegenwärtige Produkte wie Google Übersetzer und Meet sowie die Öffnung für ein Entwickler-Ökosystem, macht Google die Echtzeit-Sprachübersetzung von einer Nischenfunktion zu einer Standard-Infrastrukturebene für globale Kommunikation . Der Pilotversuch mit Grab veranschaulicht diesen Wandel deutlich und positioniert sofortige, natürlich klingende Übersetzung als Gebrauchsgegenstand und nicht als Neuheit
.
Alle KI-generierten Audiodaten des Modells werden mit der SynthID-Technologie von Google mit einem Wasserzeichen versehen, um sicherzustellen, dass ihre Herkunft erkennbar ist und um potenziellem Missbrauch vorzubeugen – ein entscheidender Schritt, da synthetische Stimmtechnologie immer überzeugender und weiter verbreitet wird .
Comments
0 comments