答案已发布2个月前Last edited 上个月24 来源

Gemini Omni：谷歌在 I/O 2026 推出的多模态视频生成 AI

Gemini Omni 是谷歌在 I/O 2026 发布的新一代多模态生成模型，可用文本、图片、音频和视频等混合输入生成高质量视频，首个版本 Gemini Omni Flash 已开始上线。[8][9] 与此前专注视频生成的 Veo 不同，Gemini Omni 将视频生成与 Gemini 的推理能力整合为统一多模态基础模型，可通过对话方式编辑视频内容。[20][23] 谷歌同时扩展 SynthID 内容水印体系：AI 生成内容会嵌入不可见水印，并在 Search 与 Chrome 中提供检测能力，多家公司包括 OpenAI、Kakao、ElevenLabs 与 Nvidia 也开始采用该标准。[24][39]

使用 Studio Global AI 搜索并核查事实浏览更多热门页面

Illustration representing Google Gemini Omni generating video from text, image, audio and video inputs — What did Google announce with Gemini Omni at I/O 2026, how does it differ from Veo, what can Gemini Omni Flash do with text, image, audio, aGemini Omni is Google’s new multimodal AI model designed to generate video from combined text, image, audio, and video inputs.
AI 提示
Create a landscape editorial hero image for this Studio Global article: What did Google announce with Gemini Omni at I/O 2026, how does it differ from Veo, what can Gemini Omni Flash do with text, image, audio, a. Article summary: Google announced Gemini Omni at I/O 2026 as a new multimodal generation model that combines Gemini reasoning with creative generation, starting with video: it can take text, images, audio, and video together as input and. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Google's Gemini Omni can generate 'anything from any input,' starting with video. Google didn't forget AI creators in its latest round of Gemini announcements. Google didn't forg" source context "Google's Gemini Omni Can Generate 'Anything From Any Input ..." Reference image 2: visual subject "# Gemini Omni Vid
openai.com

Gemini Omni：谷歌的新一代多模态生成模型

在 Google I/O 2026 开发者大会上，谷歌正式发布 Gemini Omni。这是 Gemini 系列中面向生成式媒体的一代新模型，其核心理念是把 AI 推理能力与生成能力融合到一个多模态系统中。

Gemini Omni 的目标很明确：“从任何输入生成内容”。在第一阶段，重点是视频生成能力。

用户可以在同一个请求中组合多种输入，例如：

文本提示
图片
音频
现有视频

模型会根据这些输入生成 高质量视频内容，并结合 Gemini 的现实世界知识进行推理和生成。

生成后的视频还可以通过自然语言继续修改，例如调整场景、人物、物体或整体风格，实现类似“对话式剪辑”。

谷歌表示，Omni 在 运动、物理效果和物体交互方面进行了优化，因此生成的视频在动作连贯性和真实感上更接近真实世界。

虽然目前重点是视频输出，但谷歌透露未来版本还将支持 从多模态输入直接生成图片或文本等内容。

与 Veo 的区别：从“视频模型”到“统一多模态模型”

在 Gemini Omni 之前，谷歌的视频生成主要依赖 Veo。

两者最大的差异在于定位和架构。

Veo

专门的视频生成模型
属于独立的媒体生成技术栈

Gemini Omni

统一的多模态基础模型
同时接受文本、图片、音频和视频输入
将 Gemini 的推理能力与生成媒体系统整合

换句话说，Omni 的设计目标是 把此前分散在不同工具中的能力整合为一个统一模型。

这意味着用户可以在同一次生成中同时提供：

对话脚本
参考图片
原始视频片段

AI 会综合理解这些信息再生成或修改视频内容。

Gemini Omni Flash：首个正式推出的版本

Gemini Omni Flash 是 Omni 系列第一个上线的生产级模型。

它支持在同一个提示中输入：

文本
图片
音频
视频

系统随后生成 真实感更强的视频内容，并允许用户通过对话继续修改生成结果。

谷歌展示的一些典型使用方式包括：

用文本和参考图片生成完整视频场景
上传现有视频并用自然语言修改内容
用语音指令配合视觉素材编辑画面

由于模型强化了对 物理运动和物体交互的理解，生成的视频在动作逻辑和连续性方面比早期模型更加稳定。

上线时间与可用平台

谷歌在 **2026年5月19日（I/O 2026 keynote 当天）**开始推出 Gemini Omni Flash。

首批上线的平台包括：

Gemini App
Google Flow（AI 创作工具）
YouTube Shorts 与 YouTube Create

在 Gemini 生态中，Omni 功能与谷歌的 AI 订阅体系绑定。

目前支持的订阅层级包括：

Google AI Plus
Google AI Pro
Google AI Ultra

不同等级主要区别在于 使用额度和计算资源限制。

谷歌还在 I/O 2026 同步推出 每月 100 美元的 AI Ultra 订阅计划，面向开发者和专业创作者，提供更高算力和更大的使用配额。

SynthID：AI 内容水印与检测系统

随着生成式视频能力增强，谷歌同时强调 AI 内容透明度与防伪机制。

核心技术是 SynthID。

SynthID 是一种 不可见数字水印技术，可以嵌入到 AI 生成内容中，包括：

图片
视频
音频
文本

这些水印 肉眼无法察觉，但可以被软件检测到，用于验证内容是否由 AI 生成。

在 I/O 2026 上，谷歌宣布多项扩展。

1. 在 Google 产品中检测 AI 内容

新的检测功能将进入：

Google Search
Chrome 浏览器

用户未来可以直接在浏览体验中判断图片是否为 AI 生成或被 AI 修改。

2. 跨行业合作

谷歌还宣布多家公司开始采用 SynthID，包括：

OpenAI
Kakao
ElevenLabs
Nvidia

目标是推动 AI 内容标识成为全行业标准。

3. SynthID Detector 验证工具

谷歌提供了 SynthID Detector 检测门户。

用户可以上传媒体文件，系统会扫描其中是否包含 SynthID 水印，从而判断其是否由 AI 生成。

这对 媒体机构、研究人员和事实核查团队尤其重要。

为什么 Gemini Omni 重要

Gemini Omni 代表着 AI 模型架构的一次重要变化。

过去，生成式 AI 往往是分开的系统：

文本模型
图像模型
视频模型

而谷歌现在正在推动 统一多模态模型：

一个系统即可理解并生成不同类型的内容。

当前阶段，Omni 主要专注于 从多模态输入生成视频。

但更长远的目标是构建一个能够 “任意输入 → 任意输出” 的 AI 系统——既理解世界，也能生成各种媒体形式。

与此同时，谷歌通过 SynthID 等技术尝试建立 AI 内容溯源与识别机制，以应对深度伪造和生成式媒体带来的挑战。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

人们还问