Gemini Omni Flash bukan sekadar alat penyambung gambar sederhana. Arsitektur dasarnya adalah model berbasis transformer yang bernalar di seluruh kombinasi input teks, gambar, audio, dan video untuk menghasilkan satu output yang koheren . Google berargumen bahwa ini memberi model tersebut semacam kecerdasan yang "berbasis dunia nyata" (world-grounded), yang berarti ia menerapkan aturan fisika, kinetika, sejarah, dan konteks budaya untuk menjaga agar adegan yang dihasilkan tetap masuk akal
.
Model ini menggabungkan mesin penalaran Gemini dengan model media generatif yang sudah terbukti seperti Veo, Nano Banana, dan Genie . Hasilnya adalah sebuah sistem yang dapat menerima perintah teks, gambar referensi, sampel audio, dan klip video yang sudah ada sekaligus, lalu merajutnya menjadi klip baru berdurasi 10 detik dengan audio yang tersinkronisasi
.
Setiap video yang dihasilkan oleh Omni Flash diberi watermark digital tak kasat mata menggunakan teknologi SynthID milik Google untuk membantu verifikasi asal-usul dan identifikasi konten buatan AI . Meski durasi 10 detik adalah batasannya, Google menyatakan bahwa ini adalah pilihan desain untuk peluncuran awal, bukan keterbatasan model itu sendiri
.
Penting untuk dicatat bahwa meskipun Anda bisa membuat video dengan audio yang tersinkron, model ini saat ini tidak mengizinkan Anda untuk mengedit ucapan atau audio secara terpisah di dalam video yang dihasilkan — kemampuan yang sengaja ditahan Google untuk saat ini .
Google meluncurkan Gemini Omni Flash secara global pada hari pengumumannya, dengan akses yang tersebar di tingkat gratis dan berbayar .
Akses API untuk pengembang dan perusahaan belum tersedia. Google mengatakan akan meluncurkannya "dalam beberapa minggu mendatang" melalui Gemini API dan Vertex AI, mengikuti pola yang sama dari perilisan model Gemini sebelumnya .
Beberapa minggu setelah pengumuman Google, sebuah filosofi yang berseberangan naik ke atas panggung. Pada peluncuran Xiaomi 17T Pro di Wina akhir Mei 2026 — sebuah ponsel yang membanggakan kamera hasil kolaborasi dengan Leica dan kemampuan Gemini Omni — Leica memperjelas posisinya tentang AI generatif .
Seorang perwakilan Leica, Marius Eschweiler, Wakil Presiden Unit Bisnis Mobile di Leica Camera AG, menyatakan filosofi perusahaan berpusat pada penciptaan gambar autentik yang mereplikasi realitas . Dia secara langsung membandingkannya dengan alat seperti Omni, dengan mengatakan, "Kemungkinan besar, Anda tidak akan melihatnya di kamera Leica M," menekankan komitmen merek terhadap keahlian optik dan kemurnian momen yang diambil
.
Namun, Leica tidak sepenuhnya menolak teknologi tersebut. Pimpinan perusahaan mengakui bahwa AI generatif sangat masuk akal di ponsel pintar. Dalam ekosistem di mana fotografi komputasional sudah menjadi standar, kreasi dan pengeditan berbasis AI terasa seperti evolusi alami dari pengalaman pengguna, bukan sebuah pemutusan tradisi . Sikap ini menciptakan strategi ganda yang jelas: kamera khusus Leica tetap menjadi instrumen purist untuk menangkap cahaya, sementara ponsel menjadi kanvas untuk kreasi berbantuan AI.
Google secara tidak biasa blak-blakan bahwa model Flash hanyalah langkah pertama. Sundar Pichai dan CTO DeepMind Koray Kavukcuoglu sama-sama menggambarkan Omni sebagai keluarga model yang dirancang untuk pada akhirnya "menciptakan apa pun dari input apa pun" .
Secara konkret, ini berarti dua arah utama dalam waktu dekat:
Pada tingkat yang lebih tinggi, Google melihat Omni sebagai langkah menuju "model dunia" (world models) penuh — sistem yang tidak hanya menghasilkan media, tetapi dapat memahami, mensimulasikan, dan berinteraksi dengan lingkungan di semua modalitas . Untuk saat ini, fokus langsungnya adalah memperluas format yang dapat dihasilkan Omni dan memberikan akses API ke tangan para pembangun.
Comments
0 comments