Perbedaan utamanya: kalau sebelumnya pembuatan dan pengeditan gambar di Gemini lebih mengandalkan prompt teks atau unggahan gambar manual, kini Gemini Live membawa proses kreatif itu ke dalam percakapan suara dan kamera real-time .
Model penghasil gambar yang menjadi otak dari fitur ini adalah Gemini 2.5 Flash Image, yang dikenal juga dengan nama nano-banana. Google menyebutnya sebagai model pembuatan dan pengeditan gambar tercanggih mereka saat ini . Beberapa kemampuan utamanya:
Teknologi ini bisa diakses oleh pengembang melalui Gemini API dan Google AI Studio, serta oleh pelanggan enterprise lewat Vertex AI .
Di ajang Google I/O 2026, Google mengumumkan sejumlah pembaruan besar yang memperkuat momentum ini:
Gemini Omni — Model anyar yang bisa menciptakan konten dari berbagai jenis input, dimulai dari video . Google menyebut Omni menggabungkan kecerdasan Gemini dengan model media generatifnya untuk pemahaman dunia (world understanding), multimodalitas, dan editing yang lebih baik
. Dalam catatan rilis aplikasi Gemini, Omni digambarkan membuat pembuatan dan pengeditan video semudah ngobrol, “seperti Nano Banana untuk video,” dan mendukung penggabungan teks, foto, dan video
. Ke depannya, Omni dirancang untuk bisa menghasilkan “apa saja dari input apa saja”
.
Gemini 3.5 Flash — Model default baru untuk aplikasi Gemini dan mode AI di Google Search . Google mengklaim model ini menghasilkan token empat kali lebih cepat dibanding model frontier lain di kelasnya, dan dirancang khusus untuk tugas-tugas agentik, coding, alur kerja multi-langkah, dan tugas jangka panjang
.
Pengumuman lain yang menonjol:
Posisi Google saat ini bertumpu pada saluran multimodal real-time terpadu yang mencakup percakapan, input kamera, pembuatan gambar, dan pembuatan video .
Keunggulan Google, berdasarkan pengumuman ini, terletak pada kedalaman integrasi: Gemini Live menutup celah antara “tunjukkan apa yang aku lihat” dan “minta Gemini untuk membuat atau mengedit sesuatu,” sementara Gemini Omni mendorong model percakapan yang sama ke arah video dan output multimodal yang lebih luas . Yang masih jadi pertanyaan kunci: seberapa baik alur kerja terintegrasi ini bekerja dalam praktik seiring peluncurannya yang semakin luas
.
Artikel ini didasarkan pada informasi yang tersedia dari pengumuman resmi Google, blog pengembang, dan liputan Google I/O 2026 hingga 7 Juni 2026. Beberapa fitur mungkin masih dalam tahap peluncuran bertahap dan mungkin belum tersedia di semua wilayah atau jenis akun.
Comments
0 comments