¿Cuáles son los puntos clave a validar primero?

Google presentó Gemini Omni en I/O 2026, una nueva familia de modelos multimodales capaces de generar video combinando texto, imágenes, audio y video en una sola solicitud.[8][9] El primer modelo disponible es Gemini Omni Flash, que ya se está desplegando en la app Gemini, Google Flow y herramientas para creadores como YouTube Shorts.[8][14]

¿Qué debo hacer a continuación en la práctica?

Junto al lanzamiento, Google amplía SynthID, su sistema de marcas de agua invisibles para detectar contenido generado por IA en productos como Search y Chrome y en plataformas de socios tecnológicos.[17][24][39]

Gemini Omni: la IA de Google que genera video a partir de múltiples tipos de contenido | Respuesta

studioglobal

Google presentó Gemini Omni durante su conferencia de desarrolladores Google I/O 2026, una nueva generación de inteligencia artificial diseñada para crear y editar contenido multimedia a partir de múltiples tipos de entrada. La tecnología combina el razonamiento del modelo Gemini con sistemas de generación de medios para producir video a partir de texto, imágenes, audio y video existente.

El primer modelo disponible es Gemini Omni Flash, que comenzó a desplegarse el mismo día del anuncio dentro del ecosistema de herramientas de IA de Google.

Qué es Gemini Omni

Gemini Omni es una familia de modelos generativos multimodales. La idea central es que un mismo sistema pueda entender y combinar distintos formatos de información para crear contenido nuevo.

Según Google, el objetivo es que el modelo pueda "crear cualquier salida a partir de cualquier entrada", empezando por video.

En su lanzamiento inicial, el modelo permite:

Combinar texto, imágenes, audio y video en una sola solicitud
Generar videos de alta calidad basados en el conocimiento del mundo de Gemini
Editar los resultados conversando con la IA, cambiando escenas, estilos u objetos mediante instrucciones en lenguaje natural

Google también afirma que el modelo está diseñado para mejorar aspectos como movimiento, física e interacción entre objetos, lo que busca que los videos generados resulten más coherentes y realistas.

Aunque el primer enfoque es el video, la compañía ha indicado que futuras versiones podrán generar directamente otros formatos como imágenes y texto a partir de entradas multimodales.

En qué se diferencia de Veo

Antes de Gemini Omni, el principal sistema de generación de video de Google era Veo, un modelo especializado en crear video.

La diferencia clave está en el alcance del modelo.

Veo

Modelo centrado únicamente en generación de video
Parte de un conjunto separado de herramientas de medios

Gemini Omni

Modelo multimodal unificado
Puede aceptar texto, imágenes, audio y video simultáneamente
Integra el razonamiento de Gemini con sistemas generativos de medios

En otras palabras, Omni busca convertirse en un modelo base único que reúna capacidades que antes estaban repartidas entre herramientas separadas, incluido Veo.

Esto permite flujos de trabajo más complejos, por ejemplo combinar diálogo, material de referencia y elementos visuales para generar o editar un video en una sola interacción con la IA.

Qué puede hacer Gemini Omni Flash

Gemini Omni Flash es el primer modelo comercial dentro de la familia Omni.

Permite utilizar en una misma solicitud:

Texto
Imágenes
Audio
Video

A partir de esos elementos, el sistema puede generar video realista y permitir edición conversacional del resultado.

Algunos ejemplos de uso mostrados por Google incluyen:

Crear escenas de video usando descripciones y imágenes de referencia
Modificar clips existentes mediante instrucciones en lenguaje natural
Combinar instrucciones de voz con elementos visuales para cambiar partes de una escena

El modelo intenta comprender cómo se mueven e interactúan los objetos en el mundo real, lo que ayuda a producir simulaciones de video más consistentes físicamente que en modelos anteriores.

Dónde está disponible y cuándo

Google comenzó el despliegue de Gemini Omni Flash el 19 de mayo de 2026, durante la keynote de Google I/O.

Las primeras plataformas con acceso incluyen:

App de Gemini
Google Flow, el estudio creativo de IA de Google
YouTube Shorts y YouTube Create para creadores

Dentro del ecosistema Gemini, el acceso depende de los planes de suscripción de IA de Google.

Los niveles compatibles incluyen:

Google AI Plus
Google AI Pro
Google AI Ultra

Los planes superiores ofrecen límites de uso más altos y funciones avanzadas.

Durante el evento, Google también presentó un nuevo plan AI Ultra de 100 dólares al mes, dirigido a desarrolladores y creadores que necesitan más capacidad de cómputo en las herramientas de Gemini.

SynthID: marcas de agua para detectar contenido generado por IA

Junto con las nuevas capacidades generativas, Google destacó medidas para mejorar la transparencia del contenido creado por IA.

El núcleo de estas medidas es SynthID, una tecnología de marcas de agua invisibles desarrollada por Google DeepMind.

SynthID inserta señales digitales en contenido generado por IA, incluyendo:

Imágenes
Video
Audio
Texto

Estas marcas no son visibles para los humanos, pero pueden detectarse con software especializado para identificar si un contenido fue generado con IA.

En I/O 2026, Google anunció varias ampliaciones importantes del sistema.

Integración en productos de Google

Herramientas de verificación basadas en SynthID se integrarán en Google Search y el navegador Chrome, permitiendo a los usuarios identificar si una imagen fue generada o modificada mediante IA directamente mientras navegan por la web.

Adopción por otras empresas

Google también anunció que varias compañías tecnológicas adoptarán SynthID para marcar contenido generado con sus propios sistemas de IA.

Entre ellas se encuentran:

OpenAI
Kakao
ElevenLabs
Nvidia

La idea es impulsar un estándar más amplio en la industria para identificar contenido generado por IA en internet.

Herramientas de verificación

Google también ofrece SynthID Detector, un portal donde usuarios pueden subir archivos multimedia para comprobar si contienen marcas de agua de SynthID, una función útil para periodistas, investigadores y verificadores de información.

Por qué importa Gemini Omni

Gemini Omni representa un cambio importante en el desarrollo de modelos de IA.

En lugar de construir herramientas separadas para texto, imágenes o video, Google está apostando por modelos multimodales unificados capaces de entender y generar múltiples formatos dentro del mismo flujo de trabajo.

El primer paso es la generación de video a partir de diferentes tipos de entrada, pero la visión a largo plazo es un sistema capaz de crear cualquier tipo de contenido desde cualquier tipo de información.

Al mismo tiempo, Google intenta equilibrar estas capacidades con mecanismos de verificación como SynthID, diseñados para ayudar a identificar contenido generado por IA y reducir el riesgo de desinformación o deepfakes.

Gemini Omni: la IA de Google que genera video a partir de múltiples tipos de contenido