الإجاباتمنشورقبل شهرينLast edited الشهر الماضي24 المصادر

Gemini Omni من جوجل: نموذج فيديو متعدد الوسائط أُعلن في I/O 2026

أعلنت جوجل عن Gemini Omni في مؤتمر Google I/O 2026 كنموذج ذكاء اصطناعي متعدد الوسائط قادر على إنشاء فيديو عالي الجودة من النصوص والصور والصوت والفيديو، مع إطلاق أول نسخة باسم Gemini Omni Flash.[8][9] يختلف Omni عن نموذج Veo السابق لأنه يجمع قدرات إنشاء الفيديو مع فهم Gemini متعدد الوسائط في نموذج أساسي موحّد يمكنه إ...

ابحث وتحقق من الحقائق مع Studio Global AI تصفّح المزيد من الصفحات الرائجة

Illustration representing Google Gemini Omni generating video from text, image, audio and video inputs — What did Google announce with Gemini Omni at I/O 2026, how does it differ from Veo, what can Gemini Omni Flash do with text, image, audio, aGemini Omni is Google’s new multimodal AI model designed to generate video from combined text, image, audio, and video inputs.
موجّه الذكاء الاصطناعي
Create a landscape editorial hero image for this Studio Global article: What did Google announce with Gemini Omni at I/O 2026, how does it differ from Veo, what can Gemini Omni Flash do with text, image, audio, a. Article summary: Google announced Gemini Omni at I/O 2026 as a new multimodal generation model that combines Gemini reasoning with creative generation, starting with video: it can take text, images, audio, and video together as input and. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Google's Gemini Omni can generate 'anything from any input,' starting with video. Google didn't forget AI creators in its latest round of Gemini announcements. Google didn't forg" source context "Google's Gemini Omni Can Generate 'Anything From Any Input ..." Reference image 2: visual subject "# Gemini Omni Vid
openai.com

ما هو Gemini Omni الذي أعلنت عنه جوجل؟

في مؤتمر Google I/O 2026 كشفت جوجل عن Gemini Omni، وهو جيل جديد من نماذج الذكاء الاصطناعي متعددة الوسائط قادر على إنشاء الوسائط الرقمية اعتمادًا على أنواع مختلفة من المدخلات في وقت واحد.

الفكرة الأساسية هي دمج قدرات التفكير في Gemini مع أنظمة توليد الوسائط لدى جوجل لإنشاء محتوى مرئي متقدم — بدءًا من الفيديو. يستطيع النموذج تلقي مجموعة من المدخلات مثل النصوص والصور والصوت أو حتى مقاطع فيديو موجودة، ثم إنتاج فيديو جديد عالي الجودة مبني على فهم النموذج للعالم.

كما يمكن للمستخدم تعديل الفيديو الناتج عبر محادثة طبيعية مع النموذج، مثل طلب تغيير عنصر في المشهد أو تعديل الأسلوب البصري أو الحركة.

تقول جوجل إن النموذج صُمّم ليكون أكثر واقعية في محاكاة:

حركة الأجسام
الفيزياء مثل الجاذبية والطاقة الحركية
التفاعل بين العناصر داخل المشهد

وهذا يهدف إلى جعل الفيديوهات المولدة أكثر تماسكًا وواقعية مقارنة بالأجيال السابقة من أدوات إنشاء الفيديو.

حالياً يركز الإصدار الأول على توليد الفيديو، لكن جوجل أوضحت أن الإصدارات المستقبلية ستدعم إنشاء صور ونصوص وربما وسائط أخرى مباشرة من المدخلات المتعددة.

الفرق بين Gemini Omni وVeo

قبل إطلاق Omni، كان نموذج الفيديو الرئيسي لدى جوجل هو Veo، وهو نموذج متخصص في إنشاء الفيديو فقط.

الاختلاف الأساسي بين النظامين يتعلق بنطاق التصميم.

Veo

نموذج مخصص لإنشاء الفيديو
يعمل ضمن مجموعة أدوات توليد الوسائط الخاصة بجوجل

Gemini Omni

نموذج أساسي موحّد متعدد الوسائط
يقبل النصوص والصور والصوت والفيديو في نفس الطلب
يدمج قدرات التفكير في Gemini مع نماذج الوسائط التوليدية

بعبارة أخرى، تسعى جوجل من خلال Omni إلى بناء نموذج واحد شامل يجمع قدرات كانت موزعة سابقًا بين عدة أدوات مثل Veo ونماذج أخرى للصور أو المحاكاة.

هذا يسمح للنموذج بفهم السياق عبر أنواع مختلفة من البيانات — مثلاً استخدام لقطة فيديو مرجعية وصورة ووصف نصي لإنشاء مشهد جديد أو تعديل فيديو موجود.

ماذا يمكن أن يفعل Gemini Omni Flash؟

أول نموذج متاح من هذه العائلة هو Gemini Omni Flash.

يمكن للنموذج استقبال عدة أنواع من المدخلات في نفس الطلب، مثل:

النصوص
الصور
الصوت
الفيديو

ثم يقوم بإنشاء فيديو واقعي بناءً على هذه المدخلات، مع إمكانية تعديل النتيجة عبر التعليمات النصية.

أمثلة على الاستخدامات التي عرضتها جوجل:

إنشاء مشاهد فيديو اعتمادًا على وصف نصي وصور مرجعية
تعديل فيديو تم رفعه عبر أوامر باللغة الطبيعية
استخدام تعليمات صوتية مع عناصر بصرية لتغيير مشهد أو إضافة عناصر

ويعتمد النموذج على فهم أفضل للحركة والتفاعلات الفيزيائية، ما يساعده على إنتاج محاكاة فيديو أكثر اتساقًا من حيث الحركة والواقع.

أين يتوفر Gemini Omni Flash؟

بدأت جوجل طرح Gemini Omni Flash في 19 مايو 2026، وهو نفس يوم الكلمة الرئيسية لمؤتمر Google I/O.

المنصات الأولى التي تدعم النموذج تشمل:

تطبيق Gemini
Google Flow (استوديو جوجل الإبداعي بالذكاء الاصطناعي)
YouTube Shorts وأداة YouTube Create لصنّاع المحتوى

ضمن منظومة Gemini، يتم الوصول إلى ميزات Omni من خلال خطط الاشتراك في خدمات الذكاء الاصطناعي من جوجل، مثل:

Google AI Plus
Google AI Pro
Google AI Ultra

تقدم الخطط الأعلى حدود استخدام أكبر وميزات إضافية للمبدعين والمطورين.

كما أعلنت جوجل عن خطة اشتراك جديدة باسم AI Ultra بسعر 100 دولار شهريًا تستهدف المطورين وصناع المحتوى الذين يحتاجون قدرة حوسبة أكبر داخل نظام Gemini.

SynthID: العلامات المائية وكشف المحتوى المولّد بالذكاء الاصطناعي

إلى جانب إطلاق أدوات توليد الوسائط، ركزت جوجل على مسألة الشفافية والتحقق من المحتوى عبر نظامها المعروف باسم SynthID.

SynthID هو تقنية تضيف علامة مائية رقمية غير مرئية داخل المحتوى الذي يولده الذكاء الاصطناعي، وتشمل:

الصور
الفيديو
الصوت
النص

هذه العلامات لا يمكن ملاحظتها بالعين البشرية لكنها قابلة للكشف عبر أدوات برمجية للتحقق من مصدر المحتوى.

توسيع الكشف داخل منتجات جوجل

أعلنت جوجل أنها ستضيف أدوات تحقق داخل:

Google Search
متصفح Chrome

بحيث يمكن للمستخدم معرفة ما إذا كانت الصورة أو الوسائط على الإنترنت مولدة بالذكاء الاصطناعي أو معدلة دون الحاجة إلى أدوات خارجية.

تبنّي التقنية من شركات أخرى

كما أعلنت الشركة أن عدة شركات ستستخدم نظام SynthID في منتجاتها، منها:

OpenAI
Kakao
ElevenLabs
Nvidia

والهدف هو إنشاء معيار صناعي أوسع لتحديد المحتوى المولّد بالذكاء الاصطناعي عبر الإنترنت.

أداة SynthID Detector

توفر جوجل أيضًا بوابة تحقق تسمى SynthID Detector تسمح للمستخدمين برفع الصور أو الفيديو أو الصوت للتحقق مما إذا كان يحتوي على العلامة المائية الخاصة بالنظام.

تُستخدم هذه الأداة بشكل خاص من قبل الصحفيين والباحثين للتحقق من مصدر المحتوى الرقمي.

لماذا يعد Gemini Omni خطوة مهمة؟

يمثل Gemini Omni تحولًا في طريقة بناء نماذج الذكاء الاصطناعي.

بدلاً من وجود أدوات منفصلة للنصوص والصور والفيديو، تتجه جوجل نحو أنظمة متعددة الوسائط موحدة يمكنها فهم وإنشاء المحتوى عبر صيغ مختلفة ضمن نفس العملية.

المرحلة الأولى هي إنشاء الفيديو من مدخلات متنوعة، لكن الهدف الأكبر هو تطوير نموذج قادر على إنشاء أي نوع من المخرجات من أي نوع من المدخلات — وهو ما تصفه جوجل بأنه تقدم كبير في فهم العالم والنمذجة الرقمية للواقع.

وفي الوقت نفسه، تحاول الشركة موازنة هذه القدرات القوية مع أدوات للشفافية مثل SynthID لمواجهة مخاطر التزييف العميق والمحتوى المولّد بالذكاء الاصطناعي.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ابحث وتحقق من الحقائق مع Studio Global AI

يسأل الناس أيضا

ما هي الإجابة المختصرة على "Gemini Omni من جوجل: نموذج فيديو متعدد الوسائط أُعلن في I/O 2026"؟

ما هي النقاط الأساسية التي يجب التحقق منها أولاً؟

ماذا يجب أن أفعل بعد ذلك في الممارسة العملية؟

ترافق الإطلاق مع توسيع نظام SynthID لوضع علامات مائية غير مرئية على المحتوى المولّد بالذكاء الاصطناعي وإضافة أدوات كشف داخل Google Search وChrome، مع تبنٍّ من شركات مثل OpenAI وKakao وElevenLabs وNvidia.[24][39]

المصادر

← Back to Trending