حالياً يركز الإصدار الأول على توليد الفيديو، لكن جوجل أوضحت أن الإصدارات المستقبلية ستدعم إنشاء صور ونصوص وربما وسائط أخرى مباشرة من المدخلات المتعددة.
قبل إطلاق Omni، كان نموذج الفيديو الرئيسي لدى جوجل هو Veo، وهو نموذج متخصص في إنشاء الفيديو فقط.
الاختلاف الأساسي بين النظامين يتعلق بنطاق التصميم.
Veo
Gemini Omni
بعبارة أخرى، تسعى جوجل من خلال Omni إلى بناء نموذج واحد شامل يجمع قدرات كانت موزعة سابقًا بين عدة أدوات مثل Veo ونماذج أخرى للصور أو المحاكاة.
هذا يسمح للنموذج بفهم السياق عبر أنواع مختلفة من البيانات — مثلاً استخدام لقطة فيديو مرجعية وصورة ووصف نصي لإنشاء مشهد جديد أو تعديل فيديو موجود.
أول نموذج متاح من هذه العائلة هو Gemini Omni Flash.
يمكن للنموذج استقبال عدة أنواع من المدخلات في نفس الطلب، مثل:
أمثلة على الاستخدامات التي عرضتها جوجل:
ويعتمد النموذج على فهم أفضل للحركة والتفاعلات الفيزيائية، ما يساعده على إنتاج محاكاة فيديو أكثر اتساقًا من حيث الحركة والواقع.
المنصات الأولى التي تدعم النموذج تشمل:
ضمن منظومة Gemini، يتم الوصول إلى ميزات Omni من خلال خطط الاشتراك في خدمات الذكاء الاصطناعي من جوجل، مثل:
كما أعلنت جوجل عن خطة اشتراك جديدة باسم AI Ultra بسعر 100 دولار شهريًا تستهدف المطورين وصناع المحتوى الذين يحتاجون قدرة حوسبة أكبر داخل نظام Gemini.
إلى جانب إطلاق أدوات توليد الوسائط، ركزت جوجل على مسألة الشفافية والتحقق من المحتوى عبر نظامها المعروف باسم SynthID.
SynthID هو تقنية تضيف علامة مائية رقمية غير مرئية داخل المحتوى الذي يولده الذكاء الاصطناعي، وتشمل:
هذه العلامات لا يمكن ملاحظتها بالعين البشرية لكنها قابلة للكشف عبر أدوات برمجية للتحقق من مصدر المحتوى.
أعلنت جوجل أنها ستضيف أدوات تحقق داخل:
بحيث يمكن للمستخدم معرفة ما إذا كانت الصورة أو الوسائط على الإنترنت مولدة بالذكاء الاصطناعي أو معدلة دون الحاجة إلى أدوات خارجية.
كما أعلنت الشركة أن عدة شركات ستستخدم نظام SynthID في منتجاتها، منها:
توفر جوجل أيضًا بوابة تحقق تسمى SynthID Detector تسمح للمستخدمين برفع الصور أو الفيديو أو الصوت للتحقق مما إذا كان يحتوي على العلامة المائية الخاصة بالنظام.
تُستخدم هذه الأداة بشكل خاص من قبل الصحفيين والباحثين للتحقق من مصدر المحتوى الرقمي.
يمثل Gemini Omni تحولًا في طريقة بناء نماذج الذكاء الاصطناعي.
بدلاً من وجود أدوات منفصلة للنصوص والصور والفيديو، تتجه جوجل نحو أنظمة متعددة الوسائط موحدة يمكنها فهم وإنشاء المحتوى عبر صيغ مختلفة ضمن نفس العملية.
المرحلة الأولى هي إنشاء الفيديو من مدخلات متنوعة، لكن الهدف الأكبر هو تطوير نموذج قادر على إنشاء أي نوع من المخرجات من أي نوع من المدخلات — وهو ما تصفه جوجل بأنه تقدم كبير في فهم العالم والنمذجة الرقمية للواقع.
وفي الوقت نفسه، تحاول الشركة موازنة هذه القدرات القوية مع أدوات للشفافية مثل SynthID لمواجهة مخاطر التزييف العميق والمحتوى المولّد بالذكاء الاصطناعي.
Comments
0 comments