لا ينتظر النموذج حتى ينتهي المتحدث من كلامه. إنه يستقبل البث الصوتي ويبدأ تدريجياً بتوليد الترجمة الصوتية في نفس اللحظة. تصف جوجل ذلك بأنه "لا يتأخر سوى بضع ثوانٍ عن كل متحدث"، مما يلغي فترات التوقف المحرجة التي قد تفسد المحادثة الطبيعية .
لا يحتاج المستخدم إلى اختيار لغة المصدر يدوياً. يكتشف النموذج تلقائياً اللغة التي يتم التحدث بها بشكل فوري. ويعمل هذا حتى في البيئات التي تختلط فيها عدة لغات، مما يجعله ملائماً للمحادثات الواقعية والديناميكية .
أحد العناصر الجوهرية لتجربة المستخدم هو ألا يبدو الناتج الصوتي المترجم كصوت آلي. صُمم النموذج ليحافظ على نبرة وسرعة وطبقة صوت المتحدث الأصلي، منتجاً صوتاً مترجماً يبدو أقرب للشخص الحقيقي وأبعد ما يكون عن محرك تحويل النص إلى كلام .
بدعمه لأكثر من 70 لغة، يغطي النموذج آلاف الأزواج ثنائية الاتجاه. صُمم للمحادثات ذات الاتجاهين، حيث يمكن لكل متحدث سماع كلمات الآخر مترجمة إلى لغته بانسيابية .
بالنسبة للمطورين، يتم الوصول للنموذج عبر واجهة Gemini Live API. يتطلب إدخالاً صوتياً بصيغة محددة: صوت PCM خام بصيغة 16-bit وبتردد عينة 16 كيلوهرتز. الناتج الصوتي المترجم هو أيضاً بصيغة PCM خام 16-bit ولكن بتردد عينة أعلى يبلغ 24 كيلوهرتز . تسمح "نافذة السياق" الخاصة بالنموذج بحد أقصى يبلغ 128,000 رمزاً مُدخلاً و 64,000 رمزاً ناتجاً
.
كانت رحلة جوجل نحو هذا الإطلاق العام على مراحل، حيث أُعلن عن عائلة نماذج Gemini 3.5 لأول مرة في مؤتمر Google I/O للمطورين في مايو 2026 .
gemini-3.1-flash-live-preview في 26 مارس 2026، كجزء من هذه العملية التطويرية المتكررة gemini-3.5-live-translate-preview رسمياً للمطورين عبر Gemini Live API و Google AI Studio، وللمستخدمين العاديين عالمياً عبر تحديثات لتطبيق Google Translate على نظامي أندرويد و iOS يُتاح النموذج عبر مجموعة واسعة من منصات جوجل للمستخدمين والمطورين والشركات، بمستويات وصول متفاوتة.
للمستخدمين، هذه هي أبسط نقطة وصول. تُطرح الميزة عالمياً داخل تطبيق الترجمة من جوجل. يمكن للمستخدمين النقر على زر "Live translate" (ترجمة مباشرة) في الزاوية السفلية اليسرى من شاشة التطبيق أثناء ارتداء سماعات الرأس. على أندرويد، تطرح جوجل أيضاً "وضع الاستماع" الذي يعمل بدون استخدام اليدين، ويقوم بتشغيل الترجمات عبر سماعة الأذن الخاصة بالهاتف، مما يتيح لك حمل الهاتف لأذنك تماماً كمكالمة عادية .
بالنسبة للمطورين، النموذج مُتاح كمعاينة عامة. يسمح هذا بدمجه في تطبيقات وخدمات الأطراف الثالثة باستخدام واجهة Gemini Live API مع إعدادات ترجمة محددة. كما توفر Google AI Studio بيئة محاكاة ليختبر المطورون قدرات النموذج ويصنعوا نماذج أولية .
الوصول للشركات يخضع لقيود أكبر. يُطلق Gemini 3.5 Live Translate لمنصة Google Meet كمعاينة خاصة لعملاء مؤسسات محددين بدءاً من يونيو 2026. عند توفره، سيكشف لغة المتحدث تلقائياً ويترجمها إلى اللغة المفضلة لكل مشارك، داعماً بذلك أكثر من 70 لغة وما يزيد عن 2000 زوج لغوي أثناء الاجتماعات. يُخطط لطرح أوسع في وقت لاحق من عام 2026 . ستكون هذه الميزة متاحة لمشتركي Google Workspace Business Standard و Plus، و Enterprise Standard و Plus، بالإضافة إلى Google AI Pro و Google AI Ultra
.
تعمل منصات الاتصال الفوري مثل Agora و Fishjam و LiveKit و Pipecat و Vision Agents بالفعل على دمج Gemini Live API لتقديم نموذج الترجمة عبر أنظمة البث الصوتي والمرئي الخاصة بهم .
أحد أكثر الاختبارات الواقعية إثارةً للاهتمام هو مع شركة Grab، المنصة الرائدة في جنوب شرق آسيا لخدمات النقل الذكي والتوصيل. تختبر Grab هذه التقنية لتوفير ترجمة صوتية فورية بين السائقين والركاب. تتعامل الشركة مع أكثر من 10 ملايين مكالمة صوتية شهرياً، ويعالج هذا البرنامج التجريبي تحدياً كبيراً في سوق تعاني من تجزئة لغوية عالية .
يمثل الانتقال من الترجمة القائمة على تبادل الأدوار إلى الترجمة بالبث المباشر تحولاً جذرياً في تجربة المستخدم. من خلال دمج النموذج بعمق في منتجات واسعة الانتشار مثل Google Translate و Meet، وفتحه أمام منظومة المطورين، تدفع جوجل بالترجمة الفورية للكلام من ميزة متخصصة إلى طبقة بنية تحتية أساسية للتواصل العالمي . يُجسّد البرنامج التجريبي مع Grab هذا التحول بوضوح، واضعاً الترجمة الفورية ذات الصوت الطبيعي كمنفعة أساسية وليس كمجرد ميزة جديدة
.
يتم ترميز جميع المقاطع الصوتية المُنشأة بواسطة الذكاء الاصطناعي من هذا النموذج بعلامة مائية رقمية باستخدام تقنية SynthID من جوجل، لضمان إمكانية اكتشاف مصدرها والحد من احتمالات إساءة الاستخدام، وهي خطوة بالغة الأهمية مع تزايد إقناع وانتشار تقنية الصوت المُصنّع .
Comments
0 comments