उत्तरप्रकाशित2 माह पहलेLast edited पिछला माह22 स्रोत

Gemini Omni: Google का नया मल्टीमॉडल वीडियो AI मॉडल

Google ने I/O 2026 में Gemini Omni नाम का नया मल्टीमॉडल AI पेश किया जो टेक्स्ट, इमेज, ऑडियो और वीडियो इनपुट से उच्च‑गुणवत्ता वाले वीडियो बना सकता है; इसका पहला वर्ज़न Gemini Omni Flash तुरंत रोल‑आउट होना शुरू हुआ।[8][9] Veo जैसे पहले के वीडियो मॉडल से अलग, Gemini Omni एक यूनिफाइड मल्टीमॉडल फाउंडेशन मॉडल है जो अलग‑अल...

Studio Global AI के साथ खोजें और तथ्यों की जांच करें और ट्रेंडिंग पेज देखें

Illustration representing Google Gemini Omni generating video from text, image, audio and video inputs — What did Google announce with Gemini Omni at I/O 2026, how does it differ from Veo, what can Gemini Omni Flash do with text, image, audio, aGemini Omni is Google’s new multimodal AI model designed to generate video from combined text, image, audio, and video inputs.
AI संकेत
Create a landscape editorial hero image for this Studio Global article: What did Google announce with Gemini Omni at I/O 2026, how does it differ from Veo, what can Gemini Omni Flash do with text, image, audio, a. Article summary: Google announced Gemini Omni at I/O 2026 as a new multimodal generation model that combines Gemini reasoning with creative generation, starting with video: it can take text, images, audio, and video together as input and. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Google's Gemini Omni can generate 'anything from any input,' starting with video. Google didn't forget AI creators in its latest round of Gemini announcements. Google didn't forg" source context "Google's Gemini Omni Can Generate 'Anything From Any Input ..." Reference image 2: visual subject "# Gemini Omni Vid
openai.com

Gemini Omni क्या है?

Google ने अपने डेवलपर इवेंट Google I/O 2026 में Gemini Omni नाम का नया AI मॉडल परिवार पेश किया। यह एक मल्टीमॉडल जनरेटिव AI सिस्टम है, जो कई तरह के इनपुट—जैसे टेक्स्ट, इमेज, ऑडियो और वीडियो—को एक साथ समझकर नया मीडिया बना सकता है।

शुरुआत में इसका मुख्य फोकस वीडियो जनरेशन पर है। यानी आप अलग‑अलग प्रकार के इनपुट देकर AI से पूरा वीडियो बनवा सकते हैं।

उदाहरण के लिए:

टेक्स्ट प्रॉम्प्ट + रेफरेंस इमेज से वीडियो बनाना
मौजूदा वीडियो अपलोड करके उसमें बदलाव करना
ऑडियो या वॉयस इंस्ट्रक्शन देकर सीन एडिट करना

Google के मुताबिक यह मॉडल Gemini की reasoning क्षमता और generative media models को एक साथ जोड़ता है, ताकि AI कंटेंट ज्यादा यथार्थवादी और संदर्भ‑समझ वाला बने।

वीडियो को ज्यादा वास्तविक बनाने की कोशिश

Google का कहना है कि Gemini Omni को इस तरह डिज़ाइन किया गया है कि वह motion, physics और objects की interaction को बेहतर समझ सके। इससे AI‑generated वीडियो पहले की तुलना में ज्यादा प्राकृतिक और सुसंगत दिख सकते हैं।

फिलहाल इसका आउटपुट मुख्य रूप से वीडियो है, लेकिन कंपनी ने संकेत दिया है कि आगे चलकर Omni इमेज और टेक्स्ट जैसे अन्य आउटपुट भी सीधे मल्टीमॉडल इनपुट से बना सकेगा।

Veo से Gemini Omni कैसे अलग है?

Gemini Omni से पहले Google का मुख्य AI वीडियो मॉडल Veo था।

दोनों के बीच सबसे बड़ा अंतर उनका दायरा है।

Veo

मुख्य रूप से वीडियो जनरेशन के लिए बनाया गया मॉडल
एक अलग मीडिया‑जनरेशन स्टैक का हिस्सा

Gemini Omni

यूनिफाइड मल्टीमॉडल फाउंडेशन मॉडल
टेक्स्ट, इमेज, ऑडियो और वीडियो सभी इनपुट स्वीकार करता है
Gemini की reasoning क्षमता को मीडिया जनरेशन के साथ जोड़ता है

इसका मतलब है कि Omni उन क्षमताओं को एक ही सिस्टम में लाने की कोशिश करता है जो पहले अलग‑अलग टूल या मॉडल में बंटी हुई थीं, जैसे Veo और अन्य जनरेटिव मीडिया मॉडल।

Gemini Omni Flash क्या कर सकता है?

Omni परिवार का पहला प्रोडक्शन मॉडल Gemini Omni Flash है, जिसे I/O 2026 के दिन ही रोल‑आउट करना शुरू कर दिया गया।

यह एक ही प्रॉम्प्ट में कई तरह के इनपुट ले सकता है:

टेक्स्ट
इमेज
ऑडियो
वीडियो

इन इनपुट के आधार पर AI:

नया वीडियो जनरेट कर सकता है
अपलोड किए गए वीडियो को एडिट कर सकता है
प्राकृतिक भाषा (conversation) से सीन या ऑब्जेक्ट बदल सकता है

Google के डेमो में ऐसे उदाहरण दिखाए गए जिनमें उपयोगकर्ता टेक्स्ट और इमेज मिलाकर वीडियो सीन बनाते हैं या मौजूदा फुटेज को AI निर्देशों से बदलते हैं।

Gemini Omni Flash कहाँ उपलब्ध है?

Gemini Omni Flash का रोल‑आउट 19 मई 2026 से शुरू हुआ, जो Google I/O की मुख्य घोषणा का दिन था।

शुरुआती उपलब्धता इन प्लेटफॉर्म पर है:

Gemini ऐप
Google Flow (AI क्रिएटिव स्टूडियो)
YouTube Shorts और YouTube Create जैसे क्रिएटर टूल्स

Gemini इकोसिस्टम में इसका एक्सेस Google की AI सब्सक्रिप्शन योजनाओं से जुड़ा है।

समर्थित प्लान:

Google AI Plus
Google AI Pro
Google AI Ultra

उच्च‑स्तरीय प्लान में आम तौर पर ज्यादा उपयोग सीमा और उन्नत फीचर्स मिलते हैं।

Google ने I/O 2026 में $100 प्रति माह वाला AI Ultra प्लान भी पेश किया, जो खास तौर पर डेवलपर्स और उन्नत क्रिएटर्स के लिए बनाया गया है जिन्हें ज्यादा कंप्यूट संसाधन चाहिए।

SynthID: AI कंटेंट की पहचान के लिए वॉटरमार्क

नए जनरेटिव टूल्स के साथ Google ने कंटेंट ट्रांसपेरेंसी पर भी जोर दिया। इसके लिए कंपनी अपने SynthID सिस्टम का इस्तेमाल कर रही है।

SynthID एक अदृश्य डिजिटल वॉटरमार्किंग तकनीक है जो AI‑generated कंटेंट में पहचानने योग्य सिग्नल जोड़ती है।

यह तकनीक इन फॉर्मेट में इस्तेमाल हो सकती है:

इमेज
वीडियो
ऑडियो
टेक्स्ट

ये वॉटरमार्क इंसानों को दिखाई नहीं देते, लेकिन सॉफ्टवेयर से पहचान लिए जाते हैं। इससे यह पता लगाना आसान हो जाता है कि कोई कंटेंट AI से बना है या नहीं।

Google के प्रोडक्ट्स में SynthID का विस्तार

Google I/O 2026 में कंपनी ने SynthID के विस्तार की भी घोषणा की।

1. Search और Chrome में AI पहचान

Google Search और Chrome ब्राउज़र में नए फीचर जोड़ रहा है जो यह पहचानने में मदद करेंगे कि कोई ऑनलाइन इमेज AI से बनाई गई है या नहीं।

इसका उद्देश्य है कि सामान्य उपयोगकर्ता भी बिना किसी खास टूल के यह जांच सकें कि कोई फोटो असली है, एडिटेड है या पूरी तरह AI‑generated।

2. इंडस्ट्री पार्टनर्स का सहयोग

Google ने यह भी बताया कि कई अन्य टेक कंपनियाँ SynthID को अपनाने लगी हैं, जैसे:

OpenAI
Kakao
ElevenLabs
Nvidia

कंपनी का लक्ष्य है कि यह सिस्टम धीरे‑धीरे AI‑generated मीडिया पहचानने का इंडस्ट्री स्टैंडर्ड बन सके।

3. SynthID Detector

Google का SynthID Detector पोर्टल उपयोगकर्ताओं को मीडिया फाइल अपलोड करके यह जांचने की सुविधा देता है कि उसमें SynthID वॉटरमार्क मौजूद है या नहीं। यह पत्रकारों, शोधकर्ताओं और फैक्ट‑चेकर्स के लिए खास उपयोगी माना जा रहा है।

क्यों महत्वपूर्ण है Gemini Omni?

Gemini Omni यह दिखाता है कि AI सिस्टम अब अलग‑अलग टूल्स से आगे बढ़कर एकीकृत मल्टीमॉडल प्लेटफॉर्म बन रहे हैं।

पहले टेक्स्ट, इमेज और वीडियो के लिए अलग‑अलग AI मॉडल होते थे। Omni जैसे सिस्टम का उद्देश्य है कि एक ही मॉडल किसी भी इनपुट से किसी भी प्रकार का आउटपुट बना सके।

अभी इसकी शुरुआत वीडियो से हो रही है, लेकिन Google इसे भविष्य में पूरी तरह मल्टीमॉडल मीडिया जनरेशन सिस्टम के रूप में विकसित करना चाहता है—साथ ही SynthID जैसे टूल्स के जरिए AI कंटेंट की पारदर्शिता बनाए रखने की कोशिश भी जारी है।

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI के साथ खोजें और तथ्यों की जांच करें

लोग पूछते भी हैं