النموذج الأساسي المسؤول عن هذه القدرات البصرية المذهلة هو Gemini 2.5 Flash Image، والذي تطلق عليه جوجل أيضاً اسم "نيمو بانانا" (Nano Banana). تصفه الشركة بأنه أحدث وأفضل نموذج لديها لتوليد الصور وتعديلها .
يتميز هذا النموذج بقدرات متطورة تشمل:
لم تكن ميزة Gemini Live الجديدة سوى جزء واحد من موجة ابتكارات كبرى أعلنت عنها جوجل في مؤتمرها للمطورين I/O 2026. هذه التحديثات ترسم ملامح مستقبل منصة Gemini بالكامل:
Gemini Omni — هذا هو الإعلان الأبرز. إنه نموذج جديد تماماً يمكنه إنشاء المخرجات انطلاقاً من أي نوع من المدخلات، بدءاً بالفيديو. جوجل تصف Omni بأنه يجمع بين ذكاء Gemini ونماذج الوسائط التوليدية لتحقيق مستوى جديد من الفهم المتعدد الوسائط والتحرير . ملاحظات إصدار تطبيق Gemini تشير إلى أن Omni يجعل من إنشاء وتحرير الفيديو تجربة أشبه بالمحادثة، "مثل Nano Banana ولكن للفيديو"، مع دعم لمزج النصوص والصور والفيديوهات
. تطمح جوجل إلى أن يصبح Omni قادراً في النهاية على إنشاء "أي شيء من أي مُدخل"
.
Gemini 3.5 Flash — أصبح هذا النموذج الآن هو النموذج الافتراضي لتطبيق Gemini و"وضع الذكاء الاصطناعي" (AI Mode) في محرك بحث جوجل . تدّعي جوجل أنه يُخرج الرموز (tokens) أسرع بأربع مرات من النماذج المنافسة في فئته، وهو مصمم خصيصاً للمهام الوكيلة (agentic tasks) والبرمجة وسير العمل متعدد الخطوات والمهام طويلة الأمد
.
إعلانات بارزة أخرى:
استراتيجية جوجل تتمحور حول بناء خط أنابيب موحد ومتكامل للوسائط المتعددة بالوقت الفعلي، يجمع بين المحادثة، والكاميرا، وإنشاء الصور، وتحرير الفيديو .
الميزة التنافسية التي تقدمها جوجل بناءً على هذه الإعلانات هي عمق التكامل. فبينما يغلق Gemini Live الحلقة بين "أرِ Gemini ما أراه" و"اطلب من Gemini أن يبتكر أو يعدل شيئاً"، يدفع Gemini Omni نفس النموذج الحواري نحو الفيديو وإنتاج محتوى متعدد الوسائط أوسع. السؤال الرئيسي المتبقي الآن هو مدى أداء هذه الميزات المتكاملة عند استخدامها على نطاق واسع في التطبيقات العملية .
Comments
0 comments