هذا مهم في مهام البحث البصري لأن الصورة قد تحمل دليلاً غير مكتمل: نصاً صغيراً على لافتة، معلماً ظاهراً من زاوية غير مريحة، جسماً مقطوعاً، أو إشارة بصرية تحتاج إلى تحقق خارجي. في إعداد OpenSearch-VL، يتعلم النموذج أن يحدد ما ينقصه، ثم يستخدم أداة استرجاع أو معالجة صورة، ثم يدمج النتيجة في خطوات الاستدلال التالية .
تتضمن الورقة مجموعتين من «مسارات» التدريب: SearchVL-SFT وفيها 36 ألف مسار للضبط الدقيق الخاضع للإشراف، وSearchVL-RL وفيها 8 آلاف مسار للتعلّم المعزز . والمسار هنا يعني سلسلة قرارات يتخذها الوكيل: هل يبحث؟ هل يقص جزءاً من الصورة؟ هل يقرأ النص عبر OCR؟ هل يتوقف لأنه جمع ما يكفي؟
تقدّم الورقة أيضاً طريقة تدريب باسم Multi-round Fault-Aware GRPO، موجهة لمسارات استخدام الأدوات متعددة الخطوات، حيث قد تفشل خطوة وسيطة، أو تساعد جزئياً، أو تحتاج إلى تصحيح لاحق .
هذه النقطة هي لبّ المشروع. وكيل البحث متعدد الوسائط لا يحتاج فقط إلى معرفة محتوى الصورة، بل إلى تعلّم توقيت استخدام الأدوات: متى يبحث، متى يحسّن الصورة، متى يقرأ النص، ومتى يكفّ عن جمع الأدلة. OpenSearch-VL يحوّل هذه القرارات إلى أمثلة قابلة للتدريب بدلاً من ترك آلية استخدام الأدوات غامضة .
الادعاء الأبرز في الورقة قوي: OpenSearch-VL حقق، بحسب الباحثين، تحسناً متوسطه أكثر من 10 نقاط مئوية عبر سبعة معايير للبحث العميق متعدد الوسائط، وكان قابلاً للمقارنة مع نماذج تجارية مغلقة رائدة في بعض المهام .
لكن هذا لا يعني إثبات تكافؤه كمنتج مع أنظمة OpenAI أو Google. الأدلة المتاحة هنا هي ورقة الباحثين وتغطية الإطلاق، وليست إعادة إنتاج مستقلة أو تدقيقاً عاماً مباشراً لأنظمة إنتاجية تعمل بالشروط نفسها . لذلك تبدو قيمة OpenSearch-VL حالياً تقنية ومهمة، لكنها ما زالت أولية عند الحديث عن الاعتمادية في العالم الحقيقي، وزمن الاستجابة، وسلوك الأمان، والتعافي من الأخطاء في عمليات بحث طويلة.
عند المقارنة مع الأنظمة التجارية من OpenAI وGoogle، الفارق المؤكد والأوضح هو الانفتاح. OpenSearch-VL يُطرح كوصفة مفتوحة ومخطط تدريب مفتوح المصدر، بينما لا تكشف المواد المذكورة عن حزم تدريب مكافئة لتلك المنتجات التجارية المغلقة .
لذلك قد يكون الإطار مهماً خصوصاً للباحثين والمطورين الذين يريدون فحص طريقة تدريب وكلاء البحث متعدد الوسائط، وكيف تُبنى مسارات استخدام الأدوات، وأين تتعثر خطوات الاستدلال البصري الطويلة. أما أرقام الاختبارات فتجعله منافساً مفتوحاً جدياً، لكنها لا تحسم بعد ما إذا كان يضاهي الأنظمة المغلقة داخل بيئات الإنتاج .
الاختبارات الأهم الآن ستكون عملية: هل يستطيع باحثون مستقلون إعادة إنتاج النتائج المعلنة؟ هل تعمل الوصفة خارج نطاق مجموعات التقييم الواردة في الورقة؟ وهل يتعامل الوكيل المدرب بهذه الطريقة بثبات مع أخطاء الأدوات عندما تطول سلسلة البحث؟
حتى تتضح هذه الإجابات، تبدو مساهمة OpenSearch-VL الأساسية في الشفافية. فهو يمنح مجتمع الذكاء الاصطناعي وصفة مفتوحة ومحددة لبناء وكلاء بحث متعددي الوسائط، وطريقة أوضح لاختبار ما إذا كانت الأنظمة المفتوحة قادرة فعلاً على تضييق الفجوة مع منتجات البحث الاصطناعي المملوكة .
Comments
0 comments