En viktig nyanse: Eksisterende bildegenerering og -redigering via Gemini 2.5 Flash Image er tilgjengelig gjennom tekstbaserte eller bildebaserte instruksjoner. Den nye Gemini Live-funksjonen bringer derimot hele denne skapelsesprosessen inn i en stemmestyrt sanntidssamtale med kameraet som øyne .
Under panseret ligger Gemini 2.5 Flash Image – ofte omtalt som Nano Banana. Google beskriver dette som sin toppmoderne modell for bildegenerering og -redigering. De viktigste egenskapene inkluderer:
Mens du tidligere måtte formulere presise tekstledetekster, kan du nå altså peke og prate. Dette viser hvordan Google sømløst fletter sammen tale, syn og kreativitet.
Avdukingen av Gemini Live sin nye bildefunksjon var bare én av mange store nyheter under årets utviklerkonferanse. Her er hovedtrekkene som bygger videre på momentet:
Gemini Omni – «Nano Banana for video»
Google presenterte Gemini Omni som en revolusjonerende modell som kan skape og redigere video fra praktisk talt hvilket som helst input – tekst, lyd, bilder eller eksisterende video . Målet er at du skal kunne lage og finpusse videoer gjennom en helt vanlig samtale, uten å måtte lære deg avansert redigeringsprogramvare
. Omni kombinerer Geminis intelligens med Googles generative mediemodeller for en ny dimensjon av verdensforståelse, multimodalitet og redigeringskontroll
.
Modellen forstår fysikk, bevarer karakterers utseende og scener på tvers av klipp, og lar deg gjøre alt fra å bytte ut objekter til å endre lyssetting – bare ved å fortelle Gemini hva du ønsker . Første versjon, kalt Gemini Omni Flash, ruller nå ut til abonnenter via Gemini-appen og Google Flow, i tillegg til gratis tilgang i YouTube Shorts
.
Gemini 3.5 Flash – lynrask intelligens
Google lanserte også Gemini 3.5 Flash som den nye standardmodellen i Gemini-appen og i Google Søks AI-modus . Selskapet hevder at den prosesserer tokens hele fire ganger raskere enn andre toppmodeller i samme klasse
. Dette er modellen som er spesialdesignet for agentbaserte oppgaver: flertrinns arbeidsflyter, koding og kompleks logisk planlegging, uten at ventetiden blir et problem
.
Kort oppsummert, her er de viktigste annonseringene:
Googles styrke, basert på disse lanseringene, ligger i en helhetlig, sanntids multimodal rørledning. De binder sammen samtale, kamerainput, bildegenerering og videoredigering på en måte som konkurrentene foreløpig ikke matcher .
Mens andre tilbyr separate verktøy for bilder og video, bygger Google en plattform der du peker, prater og skaper – uten å skifte app eller grensesnitt. Her er konkurransefortrinnet kort oppsummert:
Spørsmålet fremover er ikke lenger hva som er teknisk mulig, men hvor godt disse integrerte arbeidsflytene fungerer i praksis for den jevne bruker etter hvert som de rulles bredere ut. Én ting er sikkert: Med Gemini Live og Omni beveger Google seg fra å være en ren informasjonsleverandør til å bli et kreativt verktøy du snakker med.
Comments
0 comments