Il modello non aspetta che l'interlocutore smetta di parlare. Trasmette l'input audio e genera progressivamente l'output tradotto nello stesso momento. Google lo descrive come un sistema che rimane "solo qualche secondo dietro a ogni interlocutore", eliminando quelle pause imbarazzanti che possono far deragliare una conversazione naturale .
Gli utenti non devono selezionare manualmente la lingua di partenza. Il modello riconosce automaticamente la lingua parlata, anche in ambienti in cui si mescolano più idiomi, rendendolo adatto a conversazioni reali e dinamiche .
Un elemento cruciale per l'esperienza d'uso è che l'output tradotto non suona robotico. Il modello è progettato per conservare l'intonazione, il ritmo e il tono originali di chi parla, producendo una voce tradotta che somiglia molto di più alla persona reale e meno a un sintetizzatore vocale .
Con il supporto per oltre 70 lingue, il modello copre migliaia di coppie linguistiche bidirezionali. È progettato per conversazioni a due vie, dove ogni partecipante può sentire le parole dell'altro tradotte nella propria lingua in modo fluido .
Per gli sviluppatori, il modello è accessibile tramite l'API Gemini Live. Richiede un input audio in un formato specifico: audio PCM grezzo a 16 bit, little-endian, con una frequenza di campionamento di 16kHz. L'audio tradotto in output è anch'esso in PCM grezzo a 16 bit, ma con una frequenza di campionamento di 24kHz . La finestra di contesto del modello consente fino a 128.000 token in input e 64.000 token in output
.
Il percorso di Google verso questo lancio è stato graduale, con la famiglia di modelli Gemini 3.5 annunciata per la prima volta alla conferenza sviluppatori Google I/O nel maggio 2026 .
gemini-3.1-flash-live-preview il 26 marzo 2026, nell'ambito di questo sviluppo iterativo gemini-3.5-live-translate-preview viene rilasciato ufficialmente agli sviluppatori tramite l'API Gemini Live e Google AI Studio, e ai consumatori di tutto il mondo attraverso gli aggiornamenti dell'app Google Traduttore su Android e iOS Il modello è stato reso disponibile su un'ampia gamma di piattaforme Google per consumatori, sviluppatori e aziende, con diversi livelli di accesso.
Per i consumatori, questo è il punto di accesso più semplice. La funzione è in fase di lancio globale all'interno dell'app Google Traduttore. Basta toccare il pulsante "Traduzione dal vivo" nell'angolo in basso a sinistra mentre si indossano le cuffie. Su Android, Google sta anche rilasciando una "modalità di ascolto" a mani libere che trasmette le traduzioni attraverso l'altoparlante del telefono, permettendo di tenerlo all'orecchio come durante una normale telefonata .
Per gli sviluppatori, il modello è disponibile in anteprima pubblica. Ciò consente di integrarlo in applicazioni e servizi di terze parti utilizzando l'API Gemini Live con una specifica configurazione di traduzione. Google AI Studio fornisce inoltre un ambiente di prova per prototipare e testare le capacità del modello .
L'accesso per le aziende è più limitato. Gemini 3.5 Live Translate per Google Meet verrà lanciato in anteprima privata per clienti aziendali selezionati a partire da giugno 2026. Quando sarà disponibile, rileverà automaticamente la lingua di chi parla e la tradurrà nella lingua preferita di ciascun partecipante, supportando oltre 70 lingue e più di 2.000 coppie linguistiche durante le riunioni, con un lancio più ampio previsto entro il 2026 . La funzione sarà disponibile per gli abbonati a Google Workspace Business Standard e Plus, Enterprise Standard e Plus, Google AI Pro e Google AI Ultra
.
Piattaforme di comunicazione in tempo reale come Agora, Fishjam, LiveKit, Pipecat e Vision Agents stanno già lavorando per integrare l'API Gemini Live e portare il modello di traduzione all'interno dei loro flussi multimediali .
Uno dei test reali più interessanti è con Grab, la piattaforma di ride-hailing e delivery del Sud-est asiatico. Grab sta sperimentando la tecnologia per fornire la traduzione vocale in tempo reale tra autisti e passeggeri. L'azienda gestisce oltre 10 milioni di chiamate vocali al mese e questa sperimentazione affronta direttamente la sfida di un mercato linguisticamente frammentato .
Il passaggio da una traduzione a turni a una in streaming rappresenta un cambiamento fondamentale nell'esperienza utente. Integrando profondamente il modello in prodotti onnipresenti come Google Traduttore e Meet, e aprendolo a un ecosistema di sviluppatori, Google sta trasformando la traduzione vocale in tempo reale da funzione di nicchia a infrastruttura standard per la comunicazione globale . Il progetto pilota con Grab illustra chiaramente questo cambiamento, posizionando la traduzione istantanea come un'utilità, non più come una novità
.
Tutto l'audio generato dall'IA sarà provvisto di filigrana digitale con la tecnologia SynthID di Google per garantirne la tracciabilità e mitigare potenziali usi impropri, un passo cruciale man mano che la tecnologia vocale sintetica diventa più convincente e diffusa .
Comments
0 comments