Den underliggande bildmodellen är Gemini 2.5 Flash Image (internt kallad nano-banana), som Google beskriver som sin toppmoderna modell för bildgenerering och redigering . Viktiga färdigheter:
Ett flertal stora nyheter från årets I/O-konferens bygger direkt på detta momentum:
Gemini Omni – En ny modell som kan skapa output från olika typer av input, med start i video . Google säger att modellen kombinerar Gemini:s intelligens med företagets generativa mediamodeller för bättre multimodalitet, världsförståelse och redigering
. I Gemini-appens release notes beskrivs Omni som ett sätt att göra videoskapande och redigering lika enkelt som en konversation – ”som Nano Banana för video” – med stöd för text, foton och video som underlag
. På sikt är tanken att Omni ska kunna skapa ”vad som helst från vilken input som helst”
.
Gemini 3.5 Flash – Den nya standardmodellen i Gemini-appen och i ”AI Mode” i Google Sök . Google uppger att den levererar tokens fyra gånger snabbare än andra frontlinjemodeller på samma nivå och är byggd för agentiska uppgifter, kodning, flerstegsflöden och långvariga uppdrag
.
Andra viktiga besked:
Google positionerar sig kring en enhetlig realtidspipeline som spänner över konversation, kamerainput, bildgenerering och videoskapande .
Googles fördel, utifrån vad som presenterats, ligger i integrationsdjupet: Gemini Live sluter cirkeln mellan ”visa Gemini vad jag ser” och ”be Gemini att skapa eller redigera något”, medan Omni drar samma konversationsmodell mot video och bredare multimodal produktion . Den stora obesvarade frågan är hur väl dessa integrerade arbetsflöden presterar i praktiken när de rullas ut i större skala
.
Comments
0 comments