Na iOS mechanizm jest ten sam – udostępnianie kamery plus konwersacja w czasie rzeczywistym . Źródła nie wskazują na odrębny, specyficzny dla iPhone’a proces, co sugeruje, że Google zadbało o spójność doświadczenia na obu platformach mobilnych.
Różnica między dotychczasową funkcjonalnością a tą nową jest kluczowa: do tej pory Gemini 2.5 Flash Image pozwalał na generowanie i edycję obrazów za pomocą promptów tekstowych i przesyłanych plików. Teraz ten kreatywny proces został przeniesiony wprost do interakcji głosowej na żywo z podglądem z kamery .
Sercem nowej funkcji jest model Gemini 2.5 Flash Image, znany pod nieoficjalną nazwą Nano Banana. Google określa go jako „najnowocześniejszy model do generowania i edycji obrazów” .
Oto, co potrafi Nano Banana:
Nowa funkcja w Gemini Live to dopiero jeden z elementów znacznie szerszej wizji Google. Podczas konferencji Google I/O 2026 firma zaprezentowała szereg nowości, które razem składają się na spójny ekosystem multimodalnej AI.
To bez wątpienia największa gwiazda wydarzenia. Gemini Omni to nowy model, który potrafi tworzyć i edytować wideo na podstawie dowolnych danych wejściowych – tekstu, obrazu, audio, a nawet istniejącego materiału filmowego .
Google opisuje to jako połączenie inteligencji Gemini z najlepszymi modelami generatywnymi firmy (Veo, Nano Banana, Genie) w jeden system, który rozumie świat, fizykę i kontekst .
W praktyce wygląda to tak: mówisz do aplikacji „Zmień tę metalową rzeźbę na fontannę z bąbelkami, ale zostaw przechodzącą obok kobietę bez zmian” – i Gemini Omni robi to, zachowując fizykę sceny i tożsamość postaci . Użytkownicy mogą też tworzyć własne awatary AI ze swoją twarzą i głosem i umieszczać się w generowanych klipach
.
Wersja Gemini Omni Flash jest już dostępna dla subskrybentów Google AI Plus, Pro i Ultra, a także w YouTube Shorts .
Drugim filarem ogłoszeń jest Gemini 3.5 Flash, który zastąpił Gemini 3.1 Flash jako domyślny model w aplikacji Gemini i trybie AI wyszukiwarki Google .
Co go wyróżnia?
Google zaprezentowało też odświeżony interfejs aplikacji Gemini w nowym języku projektowym „Neural Expressive” . Gemini Live nie otwiera się już na pełnym ekranie, tylko działa w trybie inline – można płynnie przełączać się między pisaniem a rozmową
.
Ponadto ogłoszono Google Pics – nową aplikację do edycji obrazów AI (coś na kształt Canvy, ale zintegrowanego z Google Workspace) oraz Docs Live – możliwość tworzenia i edycji dokumentów Google Docs za pomocą poleceń głosowych .
Patrząc na te wszystkie ogłoszenia, widać wyraźnie, że Google stawia na głęboką integrację multimodalną w czasie rzeczywistym, a nie na pojedyncze, odseparowane narzędzia.
Przewaga Google, przynajmniej na papierze, tkwi w spójności ekosystemu: użytkownik nie musi skakać między narzędziami. W jednej aplikacji może pokazać Gemini, co widzi, poprosić o modyfikację, przejść do edycji wideo i stworzyć spersonalizowanego awatara – wszystko w języku naturalnym.
Kluczowe pytanie brzmi: jak te zintegrowane przepływy pracy sprawdzą się w praktyce, gdy trafią do rąk milionów użytkowników? Na razie Google wysyła jasny sygnał: przyszłość AI to nie osobne modele do tekstu, obrazu i wideo, ale jeden, multimodalny, konwersacyjny interfejs, który rozumie i tworzy świat tak jak człowiek.
Comments
0 comments