Model ini tidak menunggu pembicara selesai. Ia mengalirkan input audio dan secara bertahap menghasilkan output terjemahan pada saat yang sama. Google menggambarkannya sebagai "hanya tertinggal beberapa detik di belakang setiap pembicara," yang menghilangkan jeda canggung yang dapat merusak percakapan alami .
Pengguna tidak perlu memilih bahasa sumber secara manual. Model ini secara otomatis mendeteksi bahasa yang diucapkan saat itu juga. Ini berfungsi bahkan di lingkungan di mana beberapa bahasa digunakan secara bersamaan, menjadikannya cocok untuk percakapan dinamis di dunia nyata .
Elemen penting untuk pengalaman pengguna adalah output terjemahan yang tidak terdengar seperti robot. Model ini dirancang untuk mempertahankan intonasi, tempo, dan nada suara asli pembicara, sehingga suara terjemahan terdengar lebih seperti orang aslinya, bukan mesin text-to-speech .
Dengan dukungan untuk lebih dari 70 bahasa, model ini mencakup ribuan pasangan dua arah. Ini dirancang untuk percakapan dua arah, di mana setiap pembicara dapat mendengar kata-kata lawan bicaranya diterjemahkan ke dalam bahasa mereka sendiri secara lancar .
Untuk para developer, model ini diakses melalui Gemini Live API. Input audio harus dalam format spesifik: raw, little-endian, 16-bit PCM audio dengan sample rate 16kHz. Output audio terjemahannya juga berupa raw 16-bit PCM, tetapi pada sample rate yang lebih tinggi, yaitu 24kHz . Jumlah token konteks model ini memungkinkan hingga 128.000 token input dan 64.000 token output
.
Perjalanan Google menuju perilisan resmi ini dilakukan secara bertahap. Rangkaian model Gemini 3.5 pertama kali diumumkan di konferensi developer Google I/O pada Mei 2026 .
gemini-3.1-flash-live-preview pada 26 Maret 2026, sebagai bagian dari pengembangan berulang ini gemini-3.5-live-translate-preview resmi dirilis untuk para developer melalui Gemini Live API dan Google AI Studio, serta untuk konsumen global melalui pembaruan aplikasi Google Translate di Android dan iOS Model ini disediakan di berbagai platform konsumen, developer, dan enterprise Google dengan tingkat akses yang berbeda.
Untuk konsumen, ini adalah titik akses paling sederhana. Fitur ini diluncurkan secara global di dalam aplikasi Google Translate. Pengguna dapat mengetuk tombol "Terjemahan langsung" di pojok kiri bawah layar aplikasi saat menggunakan headphone. Di Android, Google juga meluncurkan "mode mendengarkan" hands-free yang memutar terjemahan melalui earpiece ponsel, jadi Anda bisa mendekatkan ponsel ke telinga seperti menerima panggilan biasa .
Untuk para developer, model ini tersedia dalam pratinjau publik. Ini memungkinkan integrasi ke dalam aplikasi dan layanan pihak ketiga menggunakan Gemini Live API dengan konfigurasi terjemahan tertentu. Google AI Studio juga menyediakan lingkungan aman bagi developer untuk membuat purwarupa dan menguji kemampuan model .
Akses untuk bisnis lebih terbatas. Gemini 3.5 Live Translate untuk Google Meet diluncurkan dalam pratinjau privat untuk pelanggan enterprise terpilih mulai Juni 2026. Saat tersedia, fitur ini akan secara otomatis mendeteksi bahasa pembicara dan menerjemahkannya ke bahasa pilihan setiap peserta, mendukung lebih dari 70 bahasa dan 2.000+ pasangan bahasa selama rapat. Peluncuran yang lebih luas direncanakan pada akhir tahun 2026 . Fitur ini akan tersedia untuk pelanggan Google Workspace Business Standard dan Plus, Enterprise Standard dan Plus, Google AI Pro, dan Google AI Ultra
.
Platform komunikasi real-time seperti Agora, Fishjam, LiveKit, Pipecat, dan Vision Agents sudah mulai mengintegrasikan Gemini Live API untuk menghadirkan model terjemahan ini ke dalam alur aplikasi mereka sendiri .
Salah satu pengujian di dunia nyata yang paling menarik adalah dengan Grab, platform ride-sharing dan pesan-antar makanan asal Asia Tenggara. Grab sedang menguji coba teknologi ini untuk menyediakan terjemahan suara real-time antara pengemudi dan penumpang. Perusahaan ini menangani lebih dari 10 juta panggilan suara per bulan, dan pilot project ini bertujuan untuk mengatasi tantangan pasar yang sangat beragam secara linguistik, termasuk di Indonesia .
Pergeseran dari penerjemahan bergiliran ke penerjemahan streaming merupakan perubahan pengalaman pengguna yang fundamental. Dengan mengintegrasikan model ini secara mendalam ke dalam produk yang banyak digunakan seperti Google Translate dan Meet, serta membukanya untuk ekosistem developer, Google mendorong penerjemahan ucapan real-time dari fitur khusus menjadi lapisan infrastruktur standar untuk komunikasi global . Pilot project dengan Grab secara jelas mengilustrasikan perubahan ini, memosisikan penerjemahan instan yang terdengar alami sebagai sebuah utilitas ketimbang sekadar hal baru
.
Semua audio yang dihasilkan AI dari model ini diberi watermark dengan teknologi SynthID milik Google untuk memastikan asal-usulnya dapat dideteksi dan mengurangi potensi penyalahgunaan. Ini adalah langkah krusial seiring meningkatnya kecanggihan dan penyebaran teknologi suara sintetis .
Comments
0 comments