La differenza fondamentale: le esistenti capacità di generazione e modifica immagini tramite Gemini 2.5 Flash Image supportano trasformazioni basate su prompt e immagini, mentre la nuova integrazione in Gemini Live porta quel ciclo di creazione/modifica in una conversazione vocale con supporto visivo in tempo reale .
Il modello di immagini sottostante è Gemini 2.5 Flash Image, soprannominato nano-banana, che Google descrive come il suo modello di generazione e modifica immagini più avanzato . Le capacità principali includono:
Diverse importanti presentazioni al Google I/O 2026 costruiscono direttamente su questo slancio:
Gemini Omni — Un nuovo modello che può creare output a partire da diversi tipi di input, a cominciare dai video . Google afferma che combina l'intelligenza di Gemini con i suoi modelli generativi multimediali per un miglioramento della multimodalità, della comprensione del mondo e del montaggio
. Le note di rilascio dell'app Gemini descrivono Omni come uno strumento per rendere la creazione e la modifica video simili a una conversazione, "come Nano Banana per i video", con supporto per la combinazione di testo, foto e video
. Nel tempo, Google prevede che Omni sia in grado di creare "qualsiasi cosa da qualsiasi input"
.
Gemini 3.5 Flash — Il nuovo modello predefinito per l'app Gemini e la "Modalità AI" di Google Search . Google dichiara che genera token quattro volte più velocemente di altri modelli di frontiera nella sua categoria ed è progettato per compiti agentici, codice, flussi di lavoro in più fasi e attività a lungo termine
.
Altri annunci degni di nota:
Il posizionamento di Google è incentrato su una pipeline multimodale unificata in tempo reale attraverso conversazione, input della fotocamera, generazione di immagini e creazione video .
Il vantaggio di Google, sulla base di questi annunci, è la profondità di integrazione: Gemini Live chiude il cerchio tra "mostra a Gemini ciò che vedo" e "chiedi a Gemini di creare o modificare qualcosa", mentre Gemini Omni spinge lo stesso modello conversazionale verso il video e output multimodali più ampi . La domanda chiave che rimane è quanto bene questi flussi di lavoro integrati funzioneranno nella pratica man mano che saranno distribuiti più ampiamente
.
Comments
0 comments