जेमिनी ओमनी फ्लैश कोई सामान्य इमेज जोड़ने वाला टूल नहीं है। इसकी अंतर्निहित आर्किटेक्चर एक ट्रांसफॉर्मर-आधारित मॉडल है जो एक एकल, सुसंगत आउटपुट उत्पन्न करने के लिए टेक्स्ट, इमेज, ऑडियो और वीडियो इनपुट के किसी भी संयोजन पर तर्क करता है । गूगल का तर्क है कि इससे मॉडल को एक प्रकार की "विश्व-आधारित" बुद्धिमत्ता मिलती है, जिसका अर्थ है कि यह जनरेटेड सीन को विश्वसनीय बनाए रखने के लिए भौतिकी, गतिकी, इतिहास और सांस्कृतिक संदर्भ के नियमों को लागू करता है
।
यह जेमिनी के तर्क इंजन को वीओ (Veo), नैनो बनाना (Nano Banana), और जिनी (Genie) जैसे सिद्ध जनरेटिव मीडिया मॉडलों के साथ जोड़ता है । परिणाम एक ऐसी प्रणाली है जो एक साथ टेक्स्ट प्रॉम्प्ट, एक संदर्भ छवि, एक ऑडियो सैंपल और एक मौजूदा वीडियो क्लिप ले सकती है, और उन्हें सिंक्रोनाइज्ड ऑडियो के साथ एक नई 10-सेकंड की क्लिप में बुन सकती है
।
ओमनी फ्लैश द्वारा निर्मित हर वीडियो एआई-जनित सामग्री की उत्पत्ति और पहचान में मदद के लिए गूगल की सिंथआईडी (SynthID) तकनीक से अदृश्य रूप से वॉटरमार्क किया जाता है । हालाँकि एक सीमा 10-सेकंड की अवधि है, गूगल ने कहा है कि यह शुरुआती लॉन्च के लिए एक डिज़ाइन विकल्प है, न कि मॉडल की कोई बाध्यता
।
यह ध्यान रखना महत्वपूर्ण है कि जबकि आप सिंक्रोनाइज्ड ऑडियो के साथ वीडियो जनरेट कर सकते हैं, मॉडल वर्तमान में आपको जनरेटेड वीडियो के भीतर स्पीच या ऑडियो को स्वतंत्र रूप से संपादित करने की अनुमति नहीं देता है - एक ऐसी क्षमता जिसे गूगल फिलहाल जानबूझकर रोक रहा है ।
गूगल ने जेमिनी ओमनी फ्लैश को अपनी घोषणा के दिन ही वैश्विक स्तर पर रोल आउट कर दिया, जिसकी पहुंच मुफ्त और सशुल्क दोनों स्तरों पर फैली हुई है ।
डेवलपर और एंटरप्राइज एपीआई एक्सेस अभी लाइव नहीं है। गूगल का कहना है कि यह जेमिनी एपीआई और वर्टेक्स एआई के माध्यम से "आने वाले हफ्तों में" रोल आउट होगा, जो पिछले जेमिनी मॉडल रिलीज के एक परिचित पैटर्न का अनुसरण करता है ।
गूगल की घोषणा के कुछ ही हफ्तों बाद, एक प्रतिस्पर्धी दर्शन ने मंच संभाला। मई 2026 के अंत में वियना में शाओमी 17टी प्रो के लॉन्च पर - एक ऐसा फोन जो लाइका-ट्यून्ड कैमरों और जेमिनी ओमनी क्षमताओं दोनों का दावा करता है - लाइका ने जनरेटिव एआई पर अपनी स्थिति बहुत स्पष्ट कर दी ।
लाइका कैमरा एजी में बिजनेस यूनिट मोबाइल के उपाध्यक्ष, मारियस एशवाइलर ने कहा कि कंपनी का दर्शन प्रामाणिक छवियां बनाने के इर्द-गिर्द घूमता है जो वास्तविकता को दोहराती हैं । उन्होंने ओमनी जैसे उपकरणों के साथ सीधा विरोधाभास खींचते हुए कहा, "सबसे अधिक संभावना है, आप इसे लाइका एम कैमरे पर नहीं देखेंगे," और ऑप्टिकल शिल्प कौशल और कैप्चर किए गए पल की शुद्धता के प्रति ब्रांड की प्रतिबद्धता पर जोर दिया
।
हालाँकि, लाइका ने तकनीक को पूरी तरह से खारिज नहीं किया। कंपनी के नेतृत्व ने स्वीकार किया कि जनरेटिव एआई स्मार्टफोन पर पूरी तरह से मायने रखता है। एक ऐसे इकोसिस्टम में जहां कम्प्यूटेशनल फोटोग्राफी पहले से ही मानक है, एआई-संचालित निर्माण और संपादन उपयोगकर्ता अनुभव का एक स्वाभाविक विकास लगता है, न कि परंपरा से विचलन । यह रुख एक स्पष्ट दोहरी रणनीति बनाता है: समर्पित लाइका कैमरे प्रकाश को कैद करने के लिए एक शुद्धतावादी उपकरण बने रहेंगे, जबकि फोन एआई-सहायता प्राप्त निर्माण के लिए कैनवास बन जाएंगे।
गूगल ने असामान्य रूप से सीधे तौर पर कहा है कि फ्लैश मॉडल सिर्फ पहला कदम है। सुंदर पिचाई और डीपमाइंड के सीटीओ कोरे कावुकुओग्लू दोनों ने ओमनी को एक ऐसे मॉडल परिवार के रूप में वर्णित किया जो अंततः "किसी भी इनपुट से कुछ भी बनाने" के लिए डिज़ाइन किया गया है ।
ठोस रूप से, इसका मतलब निकट भविष्य के लिए दो मुख्य दिशाएँ हैं:
एक उच्च स्तर पर, गूगल ओमनी को पूर्ण "विश्व मॉडल" की दिशा में एक कदम के रूप में देखता है - ऐसी प्रणालियाँ जो सिर्फ मीडिया नहीं बनातीं, बल्कि सभी तौर-तरीकों में वातावरण को समझ सकती हैं, अनुकरण कर सकती हैं और उनके साथ बातचीत कर सकती हैं । फिलहाल, तत्काल ध्यान उन प्रारूपों के विस्तार पर है जिन्हें ओमनी जनरेट कर सकता है और एपीआई एक्सेस को बिल्डरों के हाथों में सौंपने पर है।
Comments
0 comments