Model ini tidak menunggu penutur selesai bercakap. Ia menstrim input audio dan menjana output terjemahan secara berperingkat pada masa yang sama. Google menggambarkannya sebagai kekal "beberapa saat di belakang setiap penutur," yang menghilangkan jeda canggung yang boleh mengganggu perbualan semula jadi .
Pengguna tidak perlu memilih bahasa sumber secara manual. Model ini mengesan bahasa yang sedang dituturkan secara automatik. Ini berfungsi walaupun dalam persekitaran di mana pelbagai bahasa bercampur, menjadikannya sesuai untuk perbualan dinamik di dunia sebenar .
Elemen penting untuk pengalaman pengguna adalah output yang diterjemahkan tidak kedengaran seperti robot. Model ini direka untuk mengekalkan intonasi, tempo, dan nada suara asal penutur, menghasilkan suara terjemahan yang lebih mirip orang asal dan kurang seperti enjin teks ke suara .
Dengan sokongan untuk 70+ bahasa, model ini meliputi ribuan pasangan dua hala. Ia direka untuk perbualan dua hala, di mana setiap penutur boleh mendengar kata-kata orang lain diterjemahkan ke dalam bahasa mereka sendiri dengan lancar .
Bagi pembangun, model ini boleh diakses melalui Gemini Live API. Ia memerlukan input audio dalam format spesifik: audio PCM 16-bit, little-endian, mentah pada kadar sampel 16kHz. Output audio terjemahan juga adalah PCM 16-bit mentah, tetapi pada kadar sampel yang lebih tinggi iaitu 24kHz . Tetingkap konteks model membenarkan sehingga 128,000 token input dan 64,000 token output
.
Perjalanan Google ke pelancaran awam ini adalah berfasa, dengan keluarga model Gemini 3.5 pertama kali diumumkan di persidangan pembangun Google I/O pada Mei 2026 .
gemini-3.1-flash-live-preview pada 26 Mac 2026, sebagai sebahagian daripada pembangunan berperingkat ini gemini-3.5-live-translate-preview telah dilancarkan secara rasmi kepada pembangun melalui Gemini Live API dan Google AI Studio, dan kepada pengguna secara global melalui kemas kini kepada aplikasi Google Translate di kedua-dua Android dan iOS Model ini disediakan merentasi pelbagai platform pengguna, pembangun, dan perusahaan Google, dengan tahap akses yang berbeza-beza.
Bagi pengguna, ini adalah titik akses paling mudah. Ciri ini dilancarkan secara global dalam aplikasi Google Translate. Pengguna boleh mengetik butang "Live translate" di sudut kiri bawah skrin aplikasi semasa memakai fon telinga. Di Android, Google juga melancarkan "mod mendengar" bebas tangan yang memainkan terjemahan melalui cuping telinga telefon, membolehkan anda memegang telefon ke telinga seperti panggilan biasa .
Bagi pembangun, model ini tersedia dalam pratonton awam. Ini membolehkan integrasi ke dalam aplikasi dan perkhidmatan pihak ketiga menggunakan Gemini Live API dengan konfigurasi terjemahan khusus. Google AI Studio juga menyediakan persekitaran kotak pasir untuk pembangun membuat prototaip dan menguji keupayaan model .
Akses untuk perniagaan adalah lebih terhad. Gemini 3.5 Live Translate untuk Google Meet dilancarkan dalam pratonton peribadi untuk pelanggan perusahaan terpilih bermula Jun 2026. Apabila tersedia, ia akan mengesan bahasa penutur secara automatik dan menterjemahkannya ke bahasa pilihan setiap peserta, menyokong lebih 70 bahasa dan 2,000+ pasangan bahasa semasa mesyuarat. Pelancaran yang lebih meluas dirancang untuk akhir tahun 2026 . Ciri ini akan tersedia kepada pelanggan Google Workspace Business Standard dan Plus, Enterprise Standard dan Plus, Google AI Pro, dan Google AI Ultra
.
Platform komunikasi masa nyata seperti Agora, Fishjam, LiveKit, Pipecat, dan Vision Agents sudah berusaha untuk mengintegrasikan Gemini Live API untuk membawa model terjemahan ke dalam saluran media mereka sendiri .
Salah satu ujian dunia sebenar yang paling menarik adalah dengan Grab, platform e-panggilan dan penghantaran Asia Tenggara. Grab sedang merintis teknologi ini untuk menyediakan terjemahan suara masa nyata antara pemandu dan penumpang. Syarikat itu mengendalikan lebih 10 juta panggilan suara sebulan, dan perintis ini menangani cabaran pasaran yang terpecah dari segi bahasa secara langsung. Ini adalah contoh jelas bagaimana terjemahan masa nyata bergerak daripada ciri khusus kepada utiliti asas di rantau yang kaya dengan bahasa seperti kita .
Peralihan daripada terjemahan giliran demi giliran kepada terjemahan penstriman adalah anjakan pengalaman pengguna (UX) yang asas. Dengan mengintegrasikan model ini secara mendalam ke dalam produk yang banyak digunakan seperti Google Translate dan Meet, dan membukanya kepada ekosistem pembangun, Google mendorong terjemahan suara masa nyata daripada ciri khusus kepada lapisan infrastruktur standard untuk komunikasi global . Perintis dengan Grab jelas menggambarkan anjakan ini, meletakkan terjemahan segera yang kedengaran semula jadi sebagai utiliti dan bukannya sesuatu yang baru
.
Semua audio yang dijana AI daripada model ini ditanda air dengan teknologi SynthID Google untuk memastikan asalnya dapat dikesan dan untuk mengurangkan potensi penyalahgunaan, satu langkah kritikal apabila teknologi suara sintetik menjadi lebih meyakinkan dan meluas .
Comments
0 comments