iOS. Та же ключевая возможность описана и для владельцев iPhone: режим Live с камерой плюс генерация и редактирование картинок прямо в диалоге . Отдельного рабочего процесса только для iOS в открытых источниках пока не опубликовано, но функциональность идентична: навел камеру — сказал — получил результат.
Принципиальное отличие от прежних версий в том, что существовавшая ранее генерация изображений через модель Gemini 2.5 Flash Image работала по текстовым или графическим запросам вне режима Live. Новая интеграция переносит тот же творческий процесс в живую голосовую беседу с включенной камерой .
Сердце обновления — модель Gemini 2.5 Flash Image, которую разработчики из Google DeepMind называют своей самой совершенной генеративно-редактирующей ИИ-системой . Ее ключевые возможности:
Вся эта мощь теперь доступна не в текстовом поле, а прямо в разговоре, что для пользователя означает: вы видите объект, говорите, что нужно изменить, и буквально через секунду видите готовое изображение .
На конференции для разработчиков Google I/O 2026 компания представила несколько продуктов, которые развивают ту же идею «творчества в реальном времени».
Главная звезда презентации — Gemini Omni. Если nano-banana умеет создавать и редактировать картинки, то Omni делает то же самое с видео. Google называет это моделью, которая «может создать что угодно из чего угодно — начиная с видео» .
Как это выглядит на практике:
Первая версия — Gemini Omni Flash — уже доступна подписчикам Google AI Plus, Pro и Ultra в приложении Gemini, а также бесплатно в YouTube Shorts и YouTube Create .
Еще один флагманский анонс — модель Gemini 3.5 Flash, которая стала стандартной «рабочей лошадкой» в приложении Gemini и режиме AI Mode в Google Поиске . Google утверждает, что она выдает токены в четыре раза быстрее других передовых моделей своего класса и заточена под агентные задачи: многошаговое программирование, использование инструментов, долгосрочные проекты
.
По бенчмаркам Gemini 3.5 Flash обходит предыдущую модель 3.1 Pro в кодинге и многозадачности, а также конкурирует с GPT-5.5 и Claude Opus 4.7 в сценариях финансового анализа и сложных цепочек действий . Модель поддерживает 1 млн токенов контекста и до 65 тыс. токенов на выходе, что сравнимо с объемом «Войны и мира»
.
Стратегия Google строится на едином конвейере реального времени, который объединяет несколько ключевых элементов:
Главное конкурентное преимущество Google на данный момент — глубина интеграции. Gemini Live закрывает петлю «покажи, что видишь — попроси создать или изменить», а Gemini Omni развивает тот же подход в сторону видео и более широкой мультимодальности . Это переход от разрозненных ИИ-инструментов к единому пространству, где можно творить голосом, камерой и текстом, не переключаясь между сервисами.
Ключевой вопрос, который остается открытым: насколько хорошо эти интегрированные сценарии будут работать в реальных условиях по мере массового развертывания. Но уже сейчас очевидно, что Google делает ставку не на отдельные «фишки», а на переосмысление самого процесса творческого взаимодействия человека с ИИ .
Comments
0 comments