對於開發者嚟講,呢個模型係透過 Gemini Live API 使用嘅。佢要求音頻輸入要用特定格式:無壓縮、低位元組優先、16-bit PCM 格式,取樣率 16kHz。而翻譯後嘅音頻輸出都係無壓縮嘅 16-bit PCM,不過取樣率就提升到 24kHz 。模型嘅上下文窗口最多可以處理 128,000 個輸入 token,以及輸出 64,000 個 token
。
gemini-3.1-flash-live-preview,就係呢個開發過程嘅一部份 gemini-3.5-live-translate-preview 模型正式向開發者發布,可以透過 Gemini Live API 同 Google AI Studio 使用,同時亦透過全球嘅 Google 翻譯 App(Android 同 iOS)更新,開放俾普羅大眾使用 呢個模型喺 Google 一系列嘅消費者、開發者同企業平台上面都有得用,不過開放程度就唔同。
對一般消費者嚟講,呢個係最簡單嘅使用途徑。「即時翻譯」功能會喺 Google 翻譯 App 入面向全球用戶推出。戴住耳機之後,只要㩒吓 App 畫面左下角嘅「即時翻譯」掣就用得。喺 Android 上面,Google 仲推出咗一個免提嘅「聆聽模式」,可以透過手機嘅聽筒播放翻譯,等你可以好似平時聽電話咁,將部手機擺喺耳邊就用得 。
對開發者而言,呢個模型係以公開預覽版嘅形式提供。開發者可以用 Gemini Live API 同特定嘅翻譯配置,將佢整合到第三方嘅應用程式同服務入面。而 Google AI Studio 就提供咗一個沙盒環境,俾開發者喺入面創建原型同測試模型嘅能力 。
俾企業用嘅就更加有限制。專為 Google Meet 而設嘅 Gemini 3.5 Live Translate,會由 2026 年 6 月開始,俾指定嘅企業客戶做私人預覽。等到正式推出之後,佢會自動偵測講者嘅語言,再翻譯成每位參加者揀好嘅語言,開會期間支援超過 70 種語言同 2,000 幾個語言組合。更大規模嘅推出計劃就預定喺 2026 年稍後時間 。呢個功能會開放俾 Google Workspace Business Standard 同 Plus、Enterprise Standard 同 Plus、Google AI Pro 同 Google AI Ultra 嘅訂閱用戶
。
好似 Agora、Fishjam、LiveKit、Pipecat 同 Vision Agents 呢類即時通訊平台,已經喺度整合 Gemini Live API,準備將呢個翻譯模型帶入佢哋自己嘅媒體管道入面 。
其中一個最令人注目嘅現實世界測試,就係同東南亞叫車同外賣平台 Grab 嘅合作。Grab 正喺度測試呢項技術,為司機同乘客提供即時語音翻譯。呢間公司每個月處理超過 1,000 萬個語音通話,而呢個測試正係要迎面解決東南亞市場語言碎片化呢個棘手問題 。
由「逐句翻譯」轉去「串流翻譯」,係用戶體驗上嘅一個根本轉變。透過將模型深度整合到 Google 翻譯同 Meet 呢類無處不在嘅產品入面,並且開放俾開發者生態系統,Google 正將即時語音翻譯,由一種小眾功能,推動成為全球溝通基礎建設嘅一個標準配備 。同 Grab 嘅合作測試,就清楚展示咗呢個轉變——將即時、聽落自然嘅翻譯定位為一種好似水電煤咁基本嘅「公用事業」,而唔係只係一個新噱頭
。
Comments
0 comments