对开发者来说,这个模型是借助 Gemini Live API 来接入的。它需要的输入音频格式是“原始、小端、16 位 PCM、16kHz 采样率”的那种。翻译出来的音频输出也是原始的 16 位 PCM,但采样率更高,24kHz。而且这个模型的上下文窗口能装下最多 128000 个输入 token,以及 64000 个输出 token
。
gemini-3.1-flash-live-preview,这就是在不断迭代优化的过程gemini-3.5-live-translate-preview 模型正式发布,开发者可以通过 Gemini Live API 和 Google AI Studio 来取用,普通用户则可以通过 Android 和 iOS 版 Google 翻译 App 的全球更新来用到它这款模型正在被放进谷歌面向消费者、开发者和企业的各类产品里,只不过不同渠道的可用程度不一样。
对普通消费者来说,这是最直接的上手方式。功能正在全球逐步推送到 Google 翻译 App 里。你只要戴上耳机,轻点 App 界面左下角的“Live translate”(实时翻译)按钮就可以用了。在 Android 上,谷歌还正在推出一个免提的“收听模式”,翻译声音可以从手机听筒里出来,这样你就可以把它贴到耳边,就像打普通电话一样。
对开发者来说,这个模型现在处于公开预览阶段。开发者可以把 Gemini Live API 配合专门的翻译配置,集成到自己的第三方应用和服务里。Google AI Studio 也提供了一个沙盒环境,方便他们去原型设计和测试模型能力。
企业用户要想用到它,限制会多一些。为 Google Meet 打造的 Gemini 3.5 Live Translate,是从 2026 年 6 月起以私人预览的形式向部分企业客户开放的。一旦启用,它会在会议中自动识别发言人的语言,并转成每个参会者自己偏好的目标语言,可以覆盖 70 多种语言和超 2000 个语言对。更大范围的落地安排在 2026 年稍后些时候。这个功能会提供给 Google Workspace 的企业标准版和增强版、商务标准版和增强版,以及 Google AI Pro 和 Google AI Ultra 的订阅用户
。
像 Agora、Fishjam、LiveKit、Pipecat、Vision Agents 这样的实时通信平台,都已经在着手把 Gemini Live API 整合起来,让这套翻译模型能跑在他们自己的媒体传输链路上。
最让人眼前一亮的真实世界测试,来自东南亚的叫车和外卖平台 Grab。Grab 现在正在试点把这套技术装到司机和乘客的实时语音沟通中。这个平台每月要处理超过 1000 万次语音通话,在这个语言极其碎片化的市场上,这种技术直击要害。
从“回合制”翻译变成流式翻译,是一次根本的体验跃迁。通过将模型深深植入 Google 翻译和 Meet 这类人人都在用的产品,并同步向开发者生态敞开,谷歌正在把实时语音翻译从一种尝鲜的功能,升级为全球交流必不可少的基础设施。Grab 的试点项目就是对这种趋势最清晰的注脚:即时的、语调自然的翻译,正从“加分项”变成“水电煤”一样的公共服务
。
Comments
0 comments