Gemini Omni Flash ليس مجرد أداة لتجميع الصور. تعتمد بنيته الأساسية على نموذج "محول" (transformer) قادر على التفكير والتحليل عبر أي مزيج من النصوص والصور والمقاطع الصوتية والمرئية لإنتاج مخرج واحد متماسك . تجادل جوجل بأن هذا يمنح النموذج نوعاً من "الذكاء المرتكز على العالم"، مما يعني أنه يطبق قواعد الفيزياء والحركة والتاريخ والسياق الثقافي للحفاظ على معقولية المشاهد المُنشأة
.
يمزج النموذج بين محرك الاستدلال الخاص بـ Gemini ونماذج الوسائط التوليدية المثبتة مثل Veo وNano Banana وGenie . والنتيجة هي نظام يمكنه تلقي أمر نصي، وصورة مرجعية، وعينة صوتية، ومقطع فيديو موجود دفعة واحدة، ونسجها في مقطع فيديو جديد مدته 10 ثوانٍ مع صوت متزامن
.
كل فيديو ينتجه Omni Flash يحمل علامة مائية رقمية غير مرئية بتقنية SynthID من جوجل للمساعدة في تتبع مصدر المحتوى والتعرف على المحتوى المُنشأ بالذكاء الاصطناعي . في حين أن مدة الـ 10 ثوانٍ تُعتبر قيداً، فقد أوضحت جوجل أن هذا خيار تصميمي للإطلاق الأولي وليس قيداً على النموذج نفسه
.
من المهم ملاحظة أنه بينما يمكنك توليد فيديو بصوت متزامن، فإن النموذج لا يسمح حالياً بتحرير الكلام أو الصوت بشكل مستقل داخل الفيديو المُنشأ - وهي قدرة تتعمد جوجل حجبها في الوقت الحالي .
قامت جوجل بطرح Gemini Omni Flash عالمياً في يوم الإعلان عنه، مع توزيع الوصول عبر فئات مجانية ومدفوعة .
لم يتم إطلاق واجهة برمجة التطبيقات (API) للمطورين والمؤسسات بعد. تقول جوجل إنها ستطرح "في الأسابيع المقبلة" من خلال Gemini API وVertex AI، باتباع نمط مألوف لإصدارات نماذج Gemini السابقة .
بعد أسابيع قليلة من إعلان جوجل، ظهرت فلسفة منافسة على المسرح. خلال إطلاق هاتف Xiaomi 17T Pro في فيينا في أواخر مايو 2026 - وهو هاتف يفتخر بكاميرات مضبوطة من لايكا وقدرات Gemini Omni - أوضحت لايكا موقفها من الذكاء الاصطناعي التوليدي بشكل قاطع .
صرح ماريوس إيشفايلر، نائب رئيس وحدة الأعمال المتنقلة في شركة Leica Camera AG، بأن فلسفة الشركة تدور حول إنشاء صور أصلية تعكس الواقع . وقارن بشكل مباشر مع أدوات مثل Omni، قائلاً: "على الأرجح، لن تراها على كاميرا Leica M"، مؤكداً على التزام العلامة التجارية بالحرفية البصرية ونقاء اللحظة الملتقطة
.
ومع ذلك، لم ترفض لايكا التقنية بالكامل. أقرت قيادة الشركة بأن الذكاء الاصطناعي التوليدي منطقي تماماً على الهاتف الذكي. في نظام بيئي حيث أصبح التصوير الحاسوبي هو المعيار، يبدو الإبداع والتحرير القائمان على الذكاء الاصطناعي وكأنهما تطور طبيعي لتجربة المستخدم، وليس خروجاً عن التقاليد . يخلق هذا الموقف استراتيجية مزدوجة واضحة: تظل كاميرات لايكا المخصصة أداة نقية لالتقاط الضوء، بينما تصبح الهواتف اللوحة القماشية للإبداع بمساعدة الذكاء الاصطناعي.
كانت جوجل مباشرة بشكل غير معتاد في أن نموذج Flash هو مجرد خطوة أولى. وصف كل من ساندر بيتشاي والمدير التقني لـ DeepMind كوراي كافوكوغلو عائلة Omni بأنها صُممت لتتمكن في النهاية من "إنشاء أي شيء من أي مدخل" .
بشكل ملموس، هذا يعني اتجاهين رئيسيين للمستقبل القريب:
على مستوى أعلى، ترى جوجل أن Omni هو خطوة نحو "نماذج عالمية" كاملة - أنظمة لا تقتصر على توليد الوسائط، بل يمكنها فهم ومحاكاة والتفاعل مع البيئات عبر جميع الوسائط . في الوقت الحالي، ينصب التركيز الفوري على توسيع التنسيقات التي يمكن لـ Omni توليدها وإتاحة الوصول إلى واجهة برمجة التطبيقات في أيدي المطورين.
Comments
0 comments