Klíčový rozdíl: Původní nástroj pro generování obrázků v Gemini (založený na 2.5 Flash) nabízel transformace na základě výzvy a nahraného snímku. Novinka v Gemini Live posouvá tuto schopnost do prostředí, kde v reálném čase vidíte předmět a zároveň o něm mluvíte – AI tak reaguje na aktuální vizuální podnět a váš hlas současně .
Mozkem celé operace je obrazový model Gemini 2.5 Flash Image, přezdívaný nano-banana, který Google označuje za svůj nejmodernější model pro generování a editaci obrázků . Mezi jeho klíčové schopnosti patří:
Tento model je dostupný pro vývojáře přes Gemini API a Google AI Studio a pro firmy přes Vertex AI .
Na konferenci I/O 2026 Google představil několik zásadních novinek, které přímo navazují na filozofii interaktivní tvorby obsahu:
Gemini Omni – Nový model, který dokáže vytvářet výstupy z různých druhů vstupů, počínaje videem . Google uvádí, že propojuje inteligenci Gemini s generativními mediálními modely, což vede k lepšímu chápání světa, multimodálnosti a možnostem úprav
. Podle poznámek k vydání aplikace Gemini Omni proměňuje tvorbu a střih videa v konverzaci – „něco jako Nano Banana pro videa“ – s podporou kombinování textu, fotek a videa
. Časem by měl Omni směřovat ke stavu, kdy vytvoří „cokoli z jakéhokoli vstupu“
.
Gemini 3.5 Flash – Stává se novým výchozím modelem pro aplikaci Gemini a AI režim ve Vyhledávání Google . Google uvádí, že generuje odpovědi čtyřikrát rychleji než ostatní modely ve své třídě a je navržen pro agentní úkoly, programování, vícestupňové pracovní postupy a dlouhodobé úlohy
. Jde o praktický model, který zvládne náročné úkoly bez zbytečných prodlev. Na benchmarcích překonává i starší model Gemini 3.1 Pro
.
Další významná oznámení:
Google sází na jednotné, v reálném čase fungující multimodální potrubí, které propojuje konverzaci, pohled kamery, tvorbu obrázků a videa .
Výhoda Googlu na základě těchto oznámení tkví v hloubce integrace: Gemini Live uzavírá smyčku mezi tím, co uživatel právě vidí, a tím, co si přeje vytvořit nebo změnit. Gemini Omni pak stejným způsobem posouvá hranice směrem k videu a dalším multimodálním výstupům . Nadále zůstává otázkou, jak dobře budou tyto integrované funkce fungovat v praxi, až se rozšíří mezi běžné uživatele – prozatím jsou však ukázkou jasného směru, kterým se vývoj ubírá
.
Comments
0 comments