यह मॉडल बोलने वाले के खत्म होने का इंतज़ार नहीं करता। यह ऑडियो इनपुट को स्ट्रीम करता है और साथ ही साथ अनुवादित आउटपुट भी जनरेट करता है। Google इसे "बोलने वाले से महज़ कुछ सेकंड पीछे" रहने के रूप में वर्णित करता है, जो उन अजीब रुकावटों को खत्म करता है जो एक स्वाभाविक बातचीत को पटरी से उतार सकती हैं।
उपयोगकर्ताओं को मैन्युअल रूप से स्रोत भाषा चुनने की ज़रूरत नहीं है। मॉडल स्वचालित रूप से पता लगा लेता है कि फिलहाल कौन सी भाषा बोली जा रही है। यह उन माहौल में भी काम करता है जहाँ बहुत सी भाषाएँ मिली-जुली होती हैं, जो इसे गतिशील, वास्तविक दुनिया की बातचीत के लिए उपयुक्त बनाता है ।
उपयोगकर्ता अनुभव के लिए एक महत्वपूर्ण तत्व यह है कि अनुवादित आउटपुट रोबोटिक नहीं लगता। मॉडल को मूल वक्ता की आवाज़ के उतार-चढ़ाव, गति और पिच को बरकरार रखने के लिए डिज़ाइन किया गया है, जो एक ऐसी अनुवादित आवाज़ उत्पन्न करता है जो मूल व्यक्ति जैसी लगती है, न कि किसी टेक्स्ट-टू-स्पीच इंजन की तरह ।
70+ भाषाओं के समर्थन के साथ, यह मॉडल हज़ारों दो-तरफ़ा जोड़ियों को कवर करता है। इसे दो-तरफ़ा बातचीत के लिए डिज़ाइन किया गया है, जहाँ हर वक्ता दूसरे के शब्दों का अपनी भाषा में सहजता से अनुवाद सुन सकता है ।
डेवलपर्स के लिए, यह मॉडल Gemini Live API के माध्यम से उपलब्ध है। इसके लिए एक विशिष्ट प्रारूप में ऑडियो इनपुट की आवश्यकता होती है: 16kHz सैंपल दर पर रॉ, लिटिल-एंडियन, 16-बिट PCM ऑडियो। अनुवादित ऑडियो आउटपुट भी रॉ 16-बिट PCM है, लेकिन एक उच्च 24kHz सैंपल दर पर । मॉडल की कॉन्टेक्स्ट विंडो 128,000 इनपुट टोकन और 64,000 आउटपुट टोकन तक की अनुमति देती है
।
Google की इस सार्वजनिक लॉन्च तक की यात्रा चरणबद्ध थी, जिसमें Gemini 3.5 मॉडल परिवार की घोषणा पहली बार मई 2026 में Google I/O डेवलपर कॉन्फ्रेंस में की गई थी ।
gemini-3.1-flash-live-preview जैसे संबंधित लाइव ऑडियो मॉडल की रिलीज़ दिखाता है gemini-3.5-live-translate-preview मॉडल को आधिकारिक तौर पर Gemini Live API और Google AI Studio के माध्यम से डेवलपर्स के लिए, और Android व iOS दोनों पर Google Translate ऐप के अपडेट के माध्यम से वैश्विक उपभोक्ताओं के लिए जारी किया गया यह मॉडल Google के उपभोक्ता, डेवलपर और एंटरप्राइज़ प्लेटफ़ॉर्म की एक विस्तृत श्रृंखला में उपलब्ध कराया जा रहा है, जिसमें पहुँच के विभिन्न स्तर हैं।
उपभोक्ताओं के लिए, यह पहुँच का सबसे सरल बिंदु है। यह सुविधा Google Translate ऐप के भीतर वैश्विक स्तर पर रोल आउट हो रही है। उपयोगकर्ता हेडफ़ोन पहने हुए ऐप स्क्रीन के निचले-बाएँ कोने में "Live translate" बटन पर टैप कर सकते हैं। Android पर, Google एक हैंड्स-फ्री "listening mode" भी रोल आउट कर रहा है जो फ़ोन के ईयरपीस के माध्यम से अनुवाद सुनाता है, जिससे आप एक आम कॉल की तरह फ़ोन को अपने कान से लगाकर रख सकते हैं ।
डेवलपर्स के लिए, यह मॉडल पब्लिक प्रीव्यू में उपलब्ध है। यह एक विशिष्ट अनुवाद कॉन्फ़िगरेशन के साथ Gemini Live API का उपयोग करके तृतीय-पक्ष एप्लिकेशन और सेवाओं में एकीकरण की अनुमति देता है। Google AI Studio डेवलपर्स को मॉडल की क्षमताओं का प्रोटोटाइप और परीक्षण करने के लिए एक सैंडबॉक्स वातावरण भी प्रदान करता है ।
व्यवसायों के लिए पहुँच अधिक प्रतिबंधित है। Google Meet के लिए Gemini 3.5 Live Translate जून 2026 से चुनिंदा एंटरप्राइज़ ग्राहकों के लिए प्राइवेट प्रीव्यू में लॉन्च हो रहा है। जब उपलब्ध होगा, तो यह स्वचालित रूप से एक वक्ता की भाषा का पता लगाएगा और मीटिंग के दौरान 70 से अधिक भाषाओं और 2,000+ भाषा जोड़ियों का समर्थन करते हुए, प्रत्येक प्रतिभागी की पसंदीदा भाषा में इसका अनुवाद करेगा। 2026 के अंत में एक व्यापक रोलआउट की योजना है । यह सुविधा Google Workspace Business Standard और Plus, Enterprise Standard और Plus, Google AI Pro, और Google AI Ultra सब्सक्राइबर्स के लिए उपलब्ध होगी
।
Agora, Fishjam, LiveKit, Pipecat और Vision Agents जैसे रियल-टाइम कम्युनिकेशन प्लेटफ़ॉर्म पहले से ही Gemini Live API को अपने मीडिया पाइपलाइनों में लाने के लिए इसका एकीकरण करने पर काम कर रहे हैं ।
सबसे सम्मोहक वास्तविक दुनिया के परीक्षणों में से एक दक्षिण पूर्व एशियाई राइडशेयर और डिलीवरी प्लेटफ़ॉर्म Grab के साथ है। Grab ड्राइवरों और सवारियों के बीच रियल-टाइम वॉइस अनुवाद प्रदान करने के लिए इस तकनीक का पायलट परीक्षण कर रहा है। कंपनी हर महीने 1 करोड़ से अधिक वॉइस कॉल संभालती है, और यह पायलट भाषाई रूप से बिखरे हुए बाज़ार की चुनौती का सीधे सामना करता है ।
बारी-दर-बारी से स्ट्रीमिंग अनुवाद की ओर बढ़ना एक बुनियादी UX बदलाव है। मॉडल को Google Translate और Meet जैसे सर्वव्यापी उत्पादों में गहराई से एकीकृत करके, और इसे एक डेवलपर इकोसिस्टम के लिए खोलकर, Google रीयल-टाइम स्पीच अनुवाद को एक आला सुविधा से वैश्विक संचार के लिए एक मानक बुनियादी ढाँचा परत में बदल रहा है । Grab के साथ पायलट स्पष्ट रूप से इस बदलाव को दर्शाता है, जो तत्काल, स्वाभाविक-लगने वाले अनुवाद को एक नवीनता के बजाय एक उपयोगिता के रूप में स्थापित करता है
।
मॉडल से उत्पन्न सभी AI-जनित ऑडियो को Google की SynthID तकनीक से वॉटरमार्क किया जाता है ताकि इसकी उत्पत्ति का पता लगाया जा सके और संभावित दुरुपयोग को कम किया जा सके, यह एक महत्वपूर्ण कदम है क्योंकि सिंथेटिक आवाज़ तकनीक अधिक विश्वसनीय और व्यापक होती जा रही है ।
Comments
0 comments