המודל אינו ממתין לסיום הדיבור. הוא מזרים קלט אודיו ומפיק תרגום מדורג בו-זמנית. על פי גוגל, המודל מצליח להישאר "שניות ספורות מאחורי כל דובר", מה שמבטל את ההפוגות המביכות שעלולות לפגוע בזרימה הטבעית של השיחה .
המשתמשים אינם צריכים לבחור ידנית את שפת המקור. המודל מזהה באופן אוטומטי את השפה המדוברת תוך כדי תנועה. יכולת זו פועלת גם בסביבות שבהן מעורבבות מספר שפות, מה שהופך אותה למתאימה לשיחות דינמיות בעולם האמיתי .
אלמנט מכריע לחוויית המשתמש הוא שהפלט המתורגם לא נשמע רובוטי. המודל תוכנן לשמר את האינטונציה, קצב הדיבור וגובה הצליל של הדובר המקורי, ומייצר קול מתורגם שנשמע הרבה יותר כמו האדם המקורי ופחות כמו מנוע טקסט-לדיבור .
עם תמיכה בלמעלה מ-70 שפות, המודל מכסה אלפי צמדי שפות דו-כיווניים. הוא מיועד לשיחות דו-צדדיות, שבהן כל דובר יכול לשמוע את דברי האחר מתורגמים לשפתו באופן שוטף .
עבור מפתחים, הגישה למודל מתבצעת דרך Gemini Live API. הוא דורש קלט אודיו בפורמט ספציפי: Raw, little-endian, 16-bit PCM בקצב דגימה של 16kHz. פלט האודיו המתורגם הוא גם Raw 16-bit PCM, אך בקצב דגימה גבוה יותר של 24kHz . חלון ההקשר של המודל מאפשר עד 128,000 טוקני קלט ו-64,000 טוקני פלט
.
הדרך של גוגל להשקה ציבורית זו הייתה מדורגת. משפחת דגמי Gemini 3.5 הוכרזה לראשונה בכנס המפתחים Google I/O במאי 2026 .
gemini-3.1-flash-live-preview ב-26 במרץ 2026, כחלק מתהליך פיתוח איטרטיבי זה gemini-3.5-live-translate-preview שוחרר רשמית למפתחים דרך Gemini Live API ו-Google AI Studio, ולצרכנים ברחבי העולם דרך עדכונים לאפליקציית Google Translate ב-Android וב-iOS המודל זמין במגוון רחב של פלטפורמות הצרכן, המפתחים והארגונים של גוגל, עם רמות גישה משתנות.
עבור צרכנים, זוהי נקודת הגישה הפשוטה ביותר. התכונה מושקת ברחבי העולם בתוך אפליקציית Google Translate. משתמשים יכולים להקיש על כפתור "Live translate" בפינה השמאלית התחתונה של מסך האפליקציה בזמן שהם מרכיבים אוזניות. במכשירי Android, גוגל משיקה גם "מצב האזנה" (listening mode) המאפשר הפעלה ללא מגע, ומתרגם את השיחות דרך אפרכסת הטלפון, כך שניתן להצמיד את המכשיר לאוזן כמו בשיחת טלפון רגילה .
עבור מפתחים, המודל זמין בתצוגה מקדימה ציבורית (Public Preview). הדבר מאפשר הטמעה ביישומים ושירותים של צד שלישי באמצעות Gemini Live API עם תצורת תרגום ייעודית. Google AI Studio מספקת גם סביבת ארגז חול למפתחים ליצירת אבות-טיפוס ובדיקת יכולות המודל .
הגישה לעסקים מוגבלת יותר. Gemini 3.5 Live Translate עבור Google Meet מושק בתצוגה מקדימה פרטית (Private Preview) ללקוחות ארגוניים נבחרים החל מיוני 2026. כשיהיה זמין, הוא יזהה אוטומטית את שפת הדובר ויתרגם אותה לשפה המועדפת על כל משתתף, תוך תמיכה ביותר מ-70 שפות ומעל 2,000 צמדי שפות במהלך פגישות. השקה רחבה יותר מתוכננת להמשך 2026 . תכונה זו תהיה זמינה למנויי Google Workspace Business Standard ו-Plus, Enterprise Standard ו-Plus, Google AI Pro ו-Google AI Ultra
.
פלטפורמות תקשורת בזמן אמת כמו Agora, Fishjam, LiveKit, Pipecat ו-Vision Agents כבר עובדות על שילוב Gemini Live API כדי לשלב את מודל התרגום בצינורות עיבוד המדיה שלהן .
אחד מהמבחנים המעשיים המרתקים ביותר הוא עם Grab, פלטפורמת שיתוף הנסיעות והמשלוחים מדרום-מזרח אסיה. Grab עורכת פיילוט לשימוש בטכנולוגיה כדי לספק תרגום קולי בזמן אמת בין נהגים לנוסעים. החברה מטפלת ביותר מ-10 מיליון שיחות קוליות בחודש, והפיילוט הזה מתמודד חזיתית עם האתגר שבשוק מפוצל מבחינה לשונית .
המעבר מתרגום תור-אחר-תור לתרגום שוטף הוא שינוי תפיסתי בחוויית המשתמש. על ידי הטמעה עמוקה של המודל במוצרים נפוצים כמו Google Translate ו-Meet, ופתיחתו למערכת האקולוגית של המפתחים, גוגל הופכת את תרגום הדיבור בזמן אמת מתכונה נישתית לשכבת תשתית סטנדרטית לתקשורת גלובלית . הפיילוט עם Grab ממחיש בבירור את השינוי הזה, ומציב תרגום מיידי שנשמע טבעי כשירות חיוני (Utility) ולא כחידוש בלבד
.
כל האודיו שנוצר על ידי המודל מסומן בטכנולוגיית SynthID של גוגל, כדי להבטיח שניתן יהיה לזהות את מקורו וכדי למנוע שימוש לרעה פוטנציאלי. זהו צעד קריטי ככל שהטכנולוגיה ליצירת קול סינתטי הופכת משכנעת ונפוצה יותר .
Comments
0 comments