Malli ei odota puhujan lopettavan. Se vastaanottaa äänivirtaa ja tuottaa käännettyä puhetta samanaikaisesti, askel askeleelta. Google kuvailee tätä pysymiseksi "vain sekunteja puhujan perässä", mikä poistaa kiusalliset tauot, jotka voivat häiritä luonnollista keskustelua .
Käyttäjän ei tarvitse valita lähdekieltä manuaalisesti. Malli tunnistaa automaattisesti, mitä kieltä puhutaan, lennosta. Tämä toimii myös ympäristöissä, joissa puhutaan useita kieliä sekaisin, mikä tekee siitä sopivan dynaamisiin, tosielämän keskusteluihin .
Keskeinen asia käyttäjäkokemukselle on, että käännetty puhe ei kuulosta robottimaiselta. Malli on suunniteltu säilyttämään alkuperäisen puhujan sävelkulku, puherytmi ja äänenkorkeus, tuottaen käännetyn äänen, joka kuulostaa enemmän alkuperäiseltä henkilöltä kuin tekstistä puheeksi -syntetisaattorilta .
Yli 70 kielen tuella malli kattaa tuhansia kaksisuuntaisia pareja. Se on suunniteltu kaksisuuntaisiin keskusteluihin, joissa kumpikin puhuja kuulee toisen sanat käännettynä omalle kielelleen sujuvasti .
Kehittäjille malli on käytettävissä Gemini Live API:n kautta. Se vaatii äänisyötteen määrätyssä muodossa: raakaa, little-endian, 16-bittistä PCM-ääntä 16 kHz:n näytteenottotaajuudella. Käännetty äänilähtö on myös raakaa 16-bittistä PCM-ääntä, mutta korkeammalla 24 kHz:n näytetaajuudella . Mallin konteksti-ikkuna mahdollistaa jopa 128 000 syötetokenia ja 64 000 lähtötulostokenia
.
Googlen matka julkiseen lanseeraukseen oli vaiheittainen, ja Gemini 3.5 -malliperhe julkistettiin ensin Google I/O -kehittäjäkonferenssissa toukokuussa 2026 .
gemini-3.1-flash-live-preview, julkaisun 26. maaliskuuta 2026, osana tätä iteratiivista kehitystyötä gemini-3.5-live-translate-preview-malli julkaistiin virallisesti kehittäjille Gemini Live API:n ja Google AI Studion kautta, ja kuluttajille maailmanlaajuisesti Google Translate -sovelluksen päivitysten myötä sekä Androidilla että iOS:llä Malli on tuotu saataville laajasti Googlen eri kuluttaja-, kehittäjä- ja yritysalustoille, vaihtelevin käyttöoikeustasoin.
Kuluttajille tämä on yksinkertaisin tapa päästä alkuun. Ominaisuus on julkistettu maailmanlaajuisesti Google Kääntäjä -sovelluksessa. Käyttäjät voivat napauttaa "Live translate" -painiketta sovellusnäytön alavasemmalla pitäessään kuulokkeita. Androidilla Google tuo saataville myös handsfree- "kuuntelutilan", joka toistaa käännökset puhelimen kuulokkeen kautta, jolloin voit pitää puhelinta korvallasi aivan kuten tavallisessa puhelussa .
Kehittäjille malli on saatavilla julkisena esiversiona (public preview). Tämä mahdollistaa integroinnin kolmannen osapuolen sovelluksiin ja palveluihin Gemini Live API:n avulla käyttäen erityistä käännöskonfiguraatiota. Google AI Studio tarjoaa myös hiekkalaatikko-ympäristön, jossa kehittäjät voivat luoda prototyyppejä ja testata mallin kyvykkyyksiä .
Yritysten saatavuus on rajatumpi. Gemini 3.5 Live Translate Google Meetiin lanseerataan yksityisenä esiversiona (private preview) valikoiduille yritysasiakkaille kesäkuusta 2026 alkaen. Kun se on saatavilla, se tunnistaa automaattisesti puhujan kielen ja kääntää sen kunkin osallistujan haluamalle kielelle tukien yli 70:tä kieltä ja yli 2 000 kieliparia kokousten aikana. Laajempi käyttöönotto on suunniteltu myöhemmäksi vuodelle 2026 . Tämä ominaisuus on seuraavien tilaajien käytettävissä: Google Workspace Business Standard ja Plus, Enterprise Standard ja Plus, Google AI Pro ja Google AI Ultra
.
Reaaliaikaisen viestinnän alustat, kuten Agora, Fishjam, LiveKit, Pipecat ja Vision Agents, työstävät jo Gemini Live API:n integrointia tuodakseen käännösmallin omiin mediaputkiinsa .
Yksi vakuuttavimmista tosimaailman testeistä on Kaakkois-Aasian kyyti- ja toimituspalvelu Grabissa. Grab testaa teknologiaa tarjotakseen reaaliaikaisen puhekäännöksen kuljettajien ja matkustajien välille. Yhtiö käsittelee yli 10 miljoonaa äänipuhelua kuukaudessa, ja tämä pilotti tarttuu kielellisesti hajanaisen markkinan haasteeseen suoraan .
Siirtyminen vuoropohjaisesta suoratoistavaan kääntämiseen on perustavanlaatuinen käyttökokemusmuutos. Integroimalla mallin syvälle kaikkialla läsnä oleviin tuotteisiin kuten Google Translate ja Meet, ja avaamalla sen kehittäjäekosysteemille, Google työntää reaaliaikaista puhekäännöstä erikoisominaisuudesta kohti globaalin viestinnän vakiintunutta infrastruktuurikerrosta . Pilotti Grabin kanssa havainnollistaa tätä murrosta selvästi, asettaen välittömän, luonnolliselta kuulostavan käännöksen yhdyskäytäväksi eikä kuriositeetiksi
.
Kaikki mallin tuottama tekoälypohjainen ääni on vesileimattu Googlen SynthID-teknologialla, jotta sen alkuperä on havaittavissa ja jotta voidaan ehkäistä mahdollista väärinkäyttöä. Tämä on kriittinen askel, kun synteettinen puheteknologia muuttuu entistä vakuuttavammaksi ja yleisemmäksi .
Comments
0 comments