對開發者來說,可以透過 Gemini Live API 使用此模型。它要求的音訊輸入格式為:原始、低位元組優先、16 位元 PCM 音訊,取樣率為 16kHz。翻譯後的音訊輸出同樣是原始的 16 位元 PCM,但取樣率會提升至更高的 24kHz 。模型的上下文窗口允許輸入高達 128,000 個 token 以及輸出 64,000 個 token
。
gemini-3.1-flash-live-preview,已於 2026 年 3 月 26 日發布,成為此迭代發展的一環 gemini-3.5-live-translate-preview 模型正式向開發者發布,可透過 Gemini Live API 和 Google AI Studio 使用;同時,也透過 Android 與 iOS 版 Google 翻譯 App 的更新,全面帶給全球消費者 此模型正廣泛地在 Google 的消費者、開發者及企業平台上線,但開放程度略有不同。
對一般消費者來說,這是最簡單的使用途徑。此功能正在 Google 翻譯 App 中全球推出。使用者只需戴上耳機,點選 App 畫面左下角的「即時翻譯」按鈕即可。在 Android 裝置上,Google 還推出一種不用動手的「聆聽模式」,能將翻譯內容透過手機聽筒播放,讓你像講一般電話一樣將手機貼近耳邊使用 。
對開發人員而言,此模型處於 公開預覽版 階段。這意味著可以透過帶有特定翻譯配置的 Gemini Live API,將其整合至第三方應用程式與服務中。Google AI Studio 也提供了一個沙盒環境,讓開發者能夠進行模型功能原型設計與測試 。
針對企業的存取權限較為嚴格。從 2026 年 6 月開始,Gemini 3.5 Live Translate 將以 私人預覽版 的形式,率先開放給特定的企業客戶。功能上線後,系統會自動偵測發言者的語言,並將其翻譯成每位與會者偏好的語言,在會議期間支援超過 70 種語言與 2,000 多種語言組合。更廣泛的推出計畫定於 2026 年下半年 。此功能適用於訂閱 Google Workspace 商業標準版與進階版、企業標準版與進階版,以及 Google AI Pro 和 Google AI Ultra 方案的用戶
。
像是 Agora、Fishjam、LiveKit、Pipecat 和 Vision Agents 等即時通訊平台,已在著手整合 Gemini Live API,要將此翻譯模型導入其自家的影音處理管線中 。
其中一個最引人注目的真實世界測試案例,便是東南亞叫車與外送平台 Grab。Grab 正試行這項技術,為司機與乘客提供即時語音翻譯。該公司每月處理超過 1,000 萬通語音通話,而此試行計畫正面迎擊了這個語言極度破碎市場所帶來的挑戰 。
從逐句對話轉變為串流翻譯,是一種根本的 UX 轉變。藉由將此模型深度整合到 Google 翻譯和 Meet 這類無所不在的產品,並向開發者生態系統開放,Google 正將即時語音翻譯,從一項利基功能,推向全球溝通的基礎設施標準配備 。Grab 的試行案例清楚說明了此轉變,將即時、聽感自然的翻譯定位成一種公用事業,而非新奇玩具
。
Comments
0 comments