Gemini Omni Flash no es un simple creador de imágenes en movimiento. Su arquitectura se basa en un modelo transformer que razona sobre cualquier combinación de texto, imagen, audio y video para producir un único resultado coherente . Google argumenta que esto le otorga una especie de inteligencia "anclada en el mundo real", lo que significa que aplica reglas de física, cinética, historia y contexto cultural para que las escenas generadas sean verosímiles
.
El secreto está en la fusión del motor de razonamiento de Gemini con modelos de medios generativos probados como Veo, Nano Banana y Genie . El resultado es un sistema que puede tomar, al mismo tiempo, un texto, una imagen de referencia, una muestra de audio y un clip de video existente, y entrelazarlos en un nuevo clip de 10 segundos con audio sincronizado
.
Cada video producido por Omni Flash está marcado de forma invisible con la tecnología SynthID de Google, una marca de agua digital que ayuda a verificar su procedencia y a identificar contenido generado por IA . Aunque la duración está limitada a 10 segundos, Google ha aclarado que se trata de una decisión de diseño para este lanzamiento inicial, no de una limitación técnica del modelo
.
Conviene tener en cuenta un detalle importante: aunque puedes generar video con audio sincronizado, el modelo actualmente no permite editar de forma independiente el habla o el audio dentro de un video generado. Es una capacidad que Google, de manera deliberada, está reservando por ahora .
Google desplegó Gemini Omni Flash a nivel global el mismo día de su anuncio, con acceso tanto gratuito como de pago .
El acceso API para desarrolladores y empresas aún no está activo. Google ha indicado que estará disponible "en las próximas semanas" a través de la API de Gemini y Vertex AI, un patrón ya conocido en lanzamientos anteriores de modelos de la familia Gemini .
Pocas semanas después del anuncio de Google, una filosofía completamente opuesta subió al escenario. A finales de mayo de 2026, durante el lanzamiento en Viena del Xiaomi 17T Pro —un teléfono que presume de cámaras con ajustes Leica y capacidades de Gemini Omni—, la legendaria firma alemana dejó muy clara su postura sobre la IA generativa .
Marius Eschweiler, Vicepresidente de la Unidad de Negocio Móvil de Leica Camera AG, declaró que la filosofía de la compañía gira en torno a la creación de imágenes auténticas que reproduzcan la realidad . Trazó un contraste directo con herramientas como Omni al afirmar: "Lo más probable es que no lo veas en una cámara Leica M", enfatizando el compromiso de la marca con la artesanía óptica y la pureza del momento capturado
.
Sin embargo, Leica no descartó la tecnología por completo. Sus directivos reconocieron que la IA generativa tiene todo el sentido del mundo en un smartphone. En un ecosistema donde la fotografía computacional ya es el estándar, la creación y edición impulsadas por IA se perciben como una evolución natural de la experiencia de usuario, no como una ruptura con la tradición . Esta postura dibuja una clara estrategia dual: las cámaras Leica dedicadas seguirán siendo instrumentos puristas para capturar la luz, mientras que los teléfonos se convierten en el lienzo perfecto para la creación asistida por IA.
Google ha sido inusualmente directo al afirmar que el modelo Flash es solo el primer paso. Sundar Pichai, CEO de Alphabet, y Koray Kavukcuoglu, CTO de DeepMind, describieron a Omni como una familia de modelos diseñada para, en última instancia, "crear cualquier cosa a partir de cualquier entrada" .
Esto se traduce en dos direcciones principales para el futuro cercano:
A un nivel superior, Google ve a Omni como un paso hacia los "modelos de mundo" completos: sistemas que no solo generan medios, sino que pueden comprender, simular e interactuar con entornos en todas las modalidades . Por ahora, la prioridad inmediata es expandir los formatos que Omni puede generar y poner el acceso API en manos de los desarrolladores.
Comments
0 comments