需要特别注意的一个区别是:此前的图像生成与编辑功能主要基于“输入提示词或上传图片”完成,属于异步操作。而此次更新的关键进步在于,谷歌将这套生成/编辑流程无缝嵌入了实时的语音对话与视频画面交互中,让创作与对话同步发生 。
它的几项关键能力包括:
目前,Gemini 2.5 Flash Image 已通过 Gemini API 和 Google AI Studio 向开发者开放,企业用户可通过 Vertex AI 使用,定价为每 100 万输出 token 30 美元,其中每张图片计为 1290 个输出 token 。
这次 Gemini Live 的实时图像功能只是谷歌多模态战略的一个节点。在 Google I/O 2026 大会上,谷歌发布了一系列重磅更新,环环相扣地构建了一个更完整的实时创作生态:
Omni 系列首个模型 Gemini Omni Flash 已经向 Google AI Plus、Pro 和 Ultra 订阅用户开放,可在 Gemini 应用、Google Flow 和 YouTube Shorts 中使用 。目前 Omni Flash 暂只支持 10 秒短视频,谷歌称这属于算力部署策略的考量
。谷歌还提到,未来 Omni 将陆续支持图像、音频等多种输出形式,最终实现真正的“任意输入到任意输出”
。
相关背景:Gemini 3.5 Flash 和 Omni 的发布,与 OpenAI 的 GPT 系列、Anthropic 的 Claude 系列在编码、推理、多模态等方向构成了直接竞争关系。谷歌此次强调的“速度快 4 倍”,直指竞争对手在推理延迟方面的痛点
。
总结谷歌当前在 AI 领域的战略,可以清晰地看到一个“统一实时多模态管线”的思路:
谷歌的核心竞争壁垒在于整合深度:它不仅提供模型,更提供从底层模型到终端应用(Gemini 应用、搜索、YouTube、Workspace 系列)的全链路体验 。相比之下,许多竞品虽在单点模型能力上很强,但在端到端消费级实时创作体验的整合上仍有差距。
此次 Gemini Live 的实时图像生成/编辑更新,并不是一个孤立的 AI 新功能。它和 Google I/O 2026 上发布的 Gemini Omni、Gemini 3.5 Flash 等一起,共同构成了谷歌“多模态 AI 创作工具链”的清晰蓝图:
对于国内用户而言,虽然部分服务可能存在访问限制,但这一系列发布所体现的“让 AI 创作像聊天一样简单”的方向,很可能影响整个行业的产品形态走向。无论是内容创作者、教育工作者,还是普通用户,都可以保持关注。
Comments
0 comments