Google представил Gemini Omni на конференции I/O 2026 — мультимодальную модель, которая генерирует видео из текста, изображений, аудио и видео; первая версия Gemini Omni Flash начала распространяться в день анонса.[8][9] В отличие от прежней модели Veo, ориентированной только на генерацию видео, Gemini Omni объединя...
What did Google announce with Gemini Omni at I/O 2026, how does it differ from Veo, what can Gemini Omni Flash do with text, image, audio, aGemini Omni is Google’s new multimodal AI model designed to generate video from combined text, image, audio, and video inputs.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: What did Google announce with Gemini Omni at I/O 2026, how does it differ from Veo, what can Gemini Omni Flash do with text, image, audio, a. Article summary: Google announced Gemini Omni at I/O 2026 as a new multimodal generation model that combines Gemini reasoning with creative generation, starting with video: it can take text, images, audio, and video together as input and. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Google's Gemini Omni can generate 'anything from any input,' starting with video. Google didn't forget AI creators in its latest round of Gemini announcements. Google didn't forg" source context "Google's Gemini Omni Can Generate 'Anything From Any Input ..." Reference image 2: visual subject "# Gemini Omni Vid
openai.com
Что такое Gemini Omni
На конференции Google I/O 2026 компания представила новую семейство моделей — Gemini Omni. Это мультимодальная система генеративного ИИ, которая умеет создавать медиаконтент из различных типов входных данных.
Главная идея — объединить интеллектуальные возможности Gemini с генеративными медиамоделями Google. В результате получается система, способная создавать контент из почти любого набора входных данных, начиная с видео.
Пользователь может комбинировать:
текстовые запросы
изображения
аудио
существующие видеоролики
После этого модель генерирует новое видео, опираясь на контекст и «мировые знания» Gemini.
Ещё одна важная функция — редактирование через диалог. Пользователь может попросить модель изменить сцену, объекты или стиль видео обычными текстовыми командами.
Google заявляет, что Omni лучше моделирует движение, физику и взаимодействие объектов, что делает синтезированное видео более правдоподобным.
Studio Global AI
Search, cite, and publish your own answer
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Каков краткий ответ на вопрос «Gemini Omni: что показал Google на I/O 2026»?
Google представил Gemini Omni на конференции I/O 2026 — мультимодальную модель, которая генерирует видео из текста, изображений, аудио и видео; первая версия Gemini Omni Flash начала распространяться в день анонса.[8][9]
Какие ключевые моменты необходимо проверить в первую очередь?
Google представил Gemini Omni на конференции I/O 2026 — мультимодальную модель, которая генерирует видео из текста, изображений, аудио и видео; первая версия Gemini Omni Flash начала распространяться в день анонса.[8][9] В отличие от прежней модели Veo, ориентированной только на генерацию видео, Gemini Omni объединяет мультимодальные входные данные и возможности рассуждения Gemini в одной базовой системе.[20][23]
Что мне делать дальше на практике?
Параллельно Google расширяет систему водяных знаков SynthID и инструменты обнаружения ИИ‑контента в Search и Chrome, а также сотрудничает с партнёрами вроде OpenAI, Kakao, ElevenLabs и Nvidia.[24][39]
Пока система генерирует прежде всего видео, но в будущем Google планирует расширить её так, чтобы она могла создавать изображения и текст напрямую из мультимодальных входных данных.
Чем Gemini Omni отличается от Veo
До появления Omni главным инструментом Google для генерации видео была модель Veo.
Ключевое различие — в архитектуре и масштабе.
Veo представляла собой специализированную систему, сосредоточенную на генерации видео.
Gemini Omni, напротив, создаётся как единая мультимодальная модель. Она:
принимает текст, изображения, аудио и видео одновременно
объединяет генерацию медиа с возможностями рассуждения Gemini
выступает как единая фундаментальная модель вместо набора отдельных инструментов
По сути, Omni объединяет функции, которые раньше были распределены между несколькими системами — включая Veo и другие генеративные модели.
Это позволяет работать с контекстом разных типов данных одновременно — например, использовать референс‑картинки, голосовые инструкции и исходное видео в одном запросе.
Gemini Omni Flash: первая версия модели
Первой моделью нового семейства стала Gemini Omni Flash.
Она поддерживает мультимодальные входные данные в одном запросе:
текст
изображения
аудио
видео
На основе этих данных модель создаёт реалистичные видеоролики, которые затем можно редактировать через диалоговые команды.
создание сцены по текстовому описанию и референс‑изображению
редактирование загруженного видео через текстовые инструкции
изменение объектов, фона или стиля ролика голосовыми командами
Модель также пытается лучше учитывать физические законы и взаимодействие объектов, что повышает реализм симуляций и движения в генерируемых роликах.
Когда и где доступна Gemini Omni Flash
Google начал развёртывание 19 мая 2026 года, в день основного выступления на Google I/O.
На старте модель появляется в нескольких сервисах:
приложение Gemini
творческая студия Google Flow
инструменты для авторов YouTube Shorts и YouTube Create
Доступ к функциям Omni в экосистеме Gemini привязан к подпискам Google на ИИ.
Поддерживаемые тарифы:
Google AI Plus
Google AI Pro
Google AI Ultra
В этих планах доступны инструменты Gemini, а более дорогие уровни предлагают большие лимиты использования и дополнительные возможности.
На конференции также был представлен тариф AI Ultra за $100 в месяц, ориентированный на разработчиков и профессиональных создателей контента, которым требуется больше вычислительных ресурсов.
SynthID: водяные знаки и обнаружение ИИ‑контента
Одновременно с новыми генеративными инструментами Google активно продвигает систему прозрачности SynthID.
SynthID — это технология невидимых цифровых водяных знаков, которые внедряются в контент, созданный ИИ, включая:
изображения
видео
аудио
текст
Такие метки невидимы для человека, но могут быть обнаружены специальными алгоритмами проверки.
Расширение обнаружения в продуктах Google
На I/O 2026 Google объявил, что инструменты проверки SynthID появятся прямо в:
Google Search
браузере Chrome
Это позволит пользователям быстрее понять, было ли изображение или видео создано ИИ или отредактировано алгоритмами.
Поддержка со стороны других компаний
Google также сообщил, что несколько компаний начали внедрять SynthID в собственные системы генеративного ИИ. Среди них:
OpenAI
Kakao
ElevenLabs
Nvidia
Цель — сформировать отраслевой стандарт маркировки ИИ‑контента в интернете.
Инструмент SynthID Detector
Для проверки контента Google развивает портал SynthID Detector. Пользователь может загрузить файл — изображение, аудио или видео — и проверить, содержит ли он встроенные водяные знаки.
Такой инструмент особенно полезен для журналистов, исследователей и модераторов, которым важно определить происхождение медиаконтента.
Почему Gemini Omni важен
Появление Gemini Omni отражает более широкий тренд в развитии ИИ.
Компании постепенно переходят от отдельных моделей для текста, изображений или видео к универсальным мультимодальным системам, которые умеют работать со всеми типами данных сразу.
Gemini Omni — один из шагов в этом направлении: модель, которая может получать любой тип входных данных и создавать разные типы медиаконтента.
Запуск начинается с генерации видео, но долгосрочная цель Google — создать систему, способную создавать любой формат контента из любого входного сигнала, одновременно повышая прозрачность благодаря технологиям вроде SynthID.
theregister.comGoogle touts its tokenmaxxing and capex spending amid AI orgy
Comments
0 comments