Model konuşan kişinin sözünü bitirmesini beklemiyor artık. Ses girdisini sürekli alırken eşzamanlı olarak çeviri üretimini başlatıyor. Google bu durumu “konuşmacının sadece saniyeler gerisinde kalmak” olarak tarif ediyor; bu da doğal bir sohbeti baltalayabilecek o rahatsız edici sessizlik anlarını tamamen ortadan kaldırıyor .
Artık hangi dilin konuşulduğunu manuel olarak seçmeniz gerekmiyor. Model, konuşulan dili anında ve otomatik olarak algılıyor. Bu durum, birden fazla dilin aynı anda konuşulduğu, örneğin uluslararası bir toplantı ortamında bile geçerliliğini koruyor; bu da onu dinamik ve gerçek dünya koşullarındaki konuşmalar için ideal hale getiriyor .
Kullanıcı deneyimi için hayati önem taşıyan bir diğer nokta, ortaya çıkan sesin robotik olmaması. Model, orijinal konuşmacının tonlamasını, konuşma hızını ve ses perdesini birebir koruyacak şekilde tasarlandı. Yani çeviriyi duyduğunuzda, bu bir metin-okuma motorundan çok, karşınızdaki kişinin gerçek sesine benzeyen, son derece doğal bir ton yakalanıyor .
70'ten fazla dil desteğiyle model, birbirleri arasında binlerce çift yönlü kombinasyonu kapsıyor. Her katılımcının, karşısındakinin söylediklerini kendi dilinde rahatça duyabildiği, karşılıklı ve akıcı diyaloglar için özel olarak hazırlanmış .
Geliştiriciler modele Gemini Live API aracılığıyla erişebiliyor. Sistem, belirli bir formatta ses girdisi talep ediyor: 16kHz örnekleme hızında, ham (raw), little-endian, 16-bit PCM mono ses. Çeviri sonucunda elde edilen ses çıktısı da yine ham 16-bit PCM olarak, ancak daha yüksek bir kalitede, 24kHz örnekleme hızında sunuluyor . Modelin bağlam penceresi 128.000 girdi jetonuna (token) ve 64.000 çıktı jetonuna kadar izin veriyor
.
Google'ın bu noktaya gelmesi planlı ve aşamalı bir sürecin sonucuydu. Gemini 3.5 model ailesi ilk kez Mayıs 2026'daki Google I/O geliştirici konferansında duyurulmuştu .
gemini-3.1-flash-live-preview adlı canlı ses modelinin yayınlandığını gösteriyor gemini-3.5-live-translate-preview modeli, Gemini Live API ve Google AI Studio aracılığıyla geliştiricilere ve dünya genelinde hem Android hem de iOS için Google Translate uygulaması güncellemesiyle tüm son kullanıcılara resmi olarak sunuldu Model, son kullanıcıdan kurumsal müşteriye ve geliştiricilere kadar çok geniş bir yelpazede, farklı erişim seviyeleriyle kullanıma sunuluyor.
Son kullanıcılar için en basit erişim noktası burası. Özellik, Google Translate uygulaması içinde küresel olarak dağıtıma çıkıyor. Kulaklığınızı takıp uygulamanın sol alt köşesindeki “Canlı çeviri” (Live translate) butonuna dokunmanız yeterli. Android tarafında ayrıca, telefonu normal bir arama yapar gibi kulağınıza götürdüğünüzde, çevirileri ahizeden dinlemenizi sağlayan eller serbest bir “dinleme modu” da kullanıma sunuluyor .
Geliştiriciler için model, herkese açık bir ön izleme (public preview) olarak sunuluyor. Bu, Gemini Live API'sini kullanan üçüncü parti uygulamalara ve servislere entegrasyonun önünü açıyor. Google AI Studio ise geliştiricilerin, modelin yeteneklerini test edip prototipleyebilecekleri bir sanal alan ortamı sağlıyor .
İş dünyası için erişim şimdilik biraz daha kısıtlı. Google Meet için Gemini 3.5 Live Translate, Haziran 2026'dan itibaren yalnızca seçili kurumsal müşterilere özel bir ön izleme (private preview) olarak sunulmaya başlanacak. Kullanıma açıldığında, bir konuşmacının dilini otomatik olarak algılayıp, toplantıdaki her katılımcı için kendi tercih ettiği dile, üstelik 2.000'den fazla dil çiftini kapsayacak şekilde anında çeviri yapabilecek . Daha geniş çaplı bir sürüm 2026'nın ilerleyen aylarında planlanıyor. Bu özellik; Google Workspace Business Standard ve Plus, Enterprise Standard ve Plus, Google AI Pro ve Google AI Ultra abonelerine açık olacak
.
Agora, Fishjam, LiveKit, Pipecat ve Vision Agents gibi gerçek zamanlı iletişim platformları, çeviri modelini kendi medya altyapılarına dahil etmek için çoktan Gemini Live API entegrasyonları üzerinde çalışıyor .
Gerçek dünyadaki en çarpıcı testlerden biri, Güneydoğu Asya’nın dev araç çağırma ve teslimat platformu Grab ile yürütülüyor. Grab, bu teknolojiyi yolcular ve sürücüler arasında gerçek zamanlı sesli çeviri sağlamak için pilot olarak kullanıyor. Platform, aylık 10 milyondan fazla sesli aramaya ev sahipliği yapıyor ve bu pilot uygulamanın hedefi, pek çok farklı dilin konuşulduğu (Tayca, Vietnamca, Malayca, Endonezce, Filipince vb.) parçalı bir pazardaki iletişim zorluklarını doğrudan çözmek .
Sıra tabanlı çeviriden akan çeviriye bu geçiş, kullanıcı deneyiminde köklü bir değişim anlamına geliyor. Modeli Google Translate ve Meet gibi yaygın ürünlere derinlemesine entegre edip bir geliştirici ekosistemine de açan Google, gerçek zamanlı konuşma çevirisini niş bir özellik olmaktan çıkarıp küresel iletişim için standart bir altyapı katmanına dönüştürüyor . Grab ile yapılan pilot uygulama bu anlayışın en somut kanıtı; anlık ve doğal sesli çeviriyi hoş bir yenilikten ziyade olmazsa olmaz bir servis haline getiriyor
.
Model tarafından üretilen tüm yapay zeka sesleri, kökeninin tespit edilebilir olmasını ve teknolojinin olası kötüye kullanımlarının önüne geçilmesini sağlamak amacıyla Google'ın SynthID teknolojisiyle filigranlanıyor. Sentetik ses teknolojisi giderek daha gerçekçi ve yaygın hale gelirken, bu tür bir önlem kritik bir adım olarak görülüyor .
Comments
0 comments