الإجاباتمنشورقبل شهرينLast edited قبل شهرين14 المصادر

OpenSearch-VL من تينسنت: وصفة مفتوحة لوكلاء بحث يفهمون الصور

OpenSearch VL من تينسنت هو وصفة مفتوحة المصدر لبناء وكلاء بحث ذكاء اصطناعي متعددي الوسائط، وأُدرجت الورقة على arXiv كتقديم في 6 مايو 2026 [18]. الإطار يدرّب الوكيل على استخدام أدوات مثل البحث في الويب، والبحث العكسي عن الصور، والتعرّف البصري على الحروف OCR، والقصّ، والتحسين، ورفع الدقة، وتصحيح المنظور [17].

ابحث وتحقق من الحقائق مع Studio Global AI تصفّح المزيد من الصفحات الرائجة

Illustration of a multimodal AI search agent combining image analysis, web search and reasoning tools — Tencent OpenSearch-VL: Open-Source Multimodal Search Agents vsAI-generated editorial illustration for Tencent OpenSearch-VL and multimodal AI search agents.
موجّه الذكاء الاصطناعي
Create a landscape editorial hero image for this Studio Global article: Tencent OpenSearch-VL: Open-Source Multimodal Search Agents vs. OpenAI and Google. Article summary: OpenSearch VL is Tencent Hunyuan’s open source recipe for multimodal AI search agents, submitted to arXiv on May 6, 2026; it uses tools such as web search, OCR and image processing, but claims of parity with closed Op.... Topic tags: ai, ai agents, multimodal ai, open source, tencent. Reference image context from search candidates: Reference image 1: visual subject "OpenAI Updates Codex: Supports Mac Desktop Control, Multi-Agent Parallelism, and Long-Term Task Execution" source context "Google: AI Agents, Multimodal AI, and Enterprise Search Will Dominate by 2025" Reference image 2: visual subject "Google Releases Veo3.1Lite: Video Generation Cost Reduced by Over 50% Supports 1080p Multi-Format Output" source context "
openai.com

تقدّم تينسنت OpenSearch-VL بوصفه وصفة تدريب مفتوحة المصدر لوكلاء بحث متعددي الوسائط، لا كروبوت دردشة جديد موجّه للمستخدم العادي. الفكرة الأساسية هي دفع نماذج الرؤية واللغة إلى ما بعد الإجابة من صورة واحدة، بحيث تستطيع البحث عن أدلة ناقصة، واستخدام أدوات خارجية، وبناء استدلال على مراحل .

تسجّل صفحة arXiv الورقة على أنها قُدّمت في 6 مايو 2026، بينما تشير تغطية الإطلاق إلى أن Tencent Hunyuan تعاونت مع جامعة كاليفورنيا في لوس أنجلوس UCLA والجامعة الصينية في هونغ كونغ في هذا الإصدار .

المشكلة التي يحاول OpenSearch-VL حلها

التحدي هنا ليس أن يصف النموذج ما يراه في صورة فقط. التحدي الأصعب هو أن يعرف متى تكون الصورة غير كافية، ومتى يحتاج إلى دليل إضافي، وأي أداة ينبغي أن يستخدمها للوصول إليه.

تغطية الإطلاق صاغت المسألة على أنها انتقال في نماذج اللغة الكبيرة متعددة الوسائط: من «فهم الصور بشكل سلبي» إلى «البحث النشط عن الأدلة والاستدلال»، مع الإشارة إلى أن نقص بيانات المسارات عالية الجودة، وطرق توليد هذه المسارات آلياً، ووصفات التدريب التفصيلية كان من عوائق إعادة إنتاج وكلاء بحث متقدمين .

ردّ OpenSearch-VL هو نشر وصفة أكثر وضوحاً لبناء الوكيل: بيانات، وتنظيم لاستخدام الأدوات، وضبط دقيق موجّه، وتعلّم معزز، وتقييم حول البحث العميق متعدد الوسائط .

كيف يبحث الوكيل عندما تكون الصورة ناقصة؟

النموذج البصري اللغوي التقليدي قد يجيب اعتماداً على ما يظهر في الصورة أمامه. أما OpenSearch-VL فمصمم للعمل داخل حلقة أدوات: يمكن للوكيل استدعاء البحث في الويب، والبحث العكسي عن الصور، والتعرّف البصري على الحروف OCR، والقصّ، وزيادة الوضوح، ورفع الدقة، وتصحيح المنظور .

هذا مهم في مهام البحث البصري لأن الصورة قد تحمل دليلاً غير مكتمل: نصاً صغيراً على لافتة، معلماً ظاهراً من زاوية غير مريحة، جسماً مقطوعاً، أو إشارة بصرية تحتاج إلى تحقق خارجي. في إعداد OpenSearch-VL، يتعلم النموذج أن يحدد ما ينقصه، ثم يستخدم أداة استرجاع أو معالجة صورة، ثم يدمج النتيجة في خطوات الاستدلال التالية .

الوصفة التدريبية: ضبط دقيق، تعلّم معزز، وأدوات قد تخطئ

تتضمن الورقة مجموعتين من «مسارات» التدريب: SearchVL-SFT وفيها 36 ألف مسار للضبط الدقيق الخاضع للإشراف، وSearchVL-RL وفيها 8 آلاف مسار للتعلّم المعزز . والمسار هنا يعني سلسلة قرارات يتخذها الوكيل: هل يبحث؟ هل يقص جزءاً من الصورة؟ هل يقرأ النص عبر OCR؟ هل يتوقف لأنه جمع ما يكفي؟

تقدّم الورقة أيضاً طريقة تدريب باسم Multi-round Fault-Aware GRPO، موجهة لمسارات استخدام الأدوات متعددة الخطوات، حيث قد تفشل خطوة وسيطة، أو تساعد جزئياً، أو تحتاج إلى تصحيح لاحق .

هذه النقطة هي لبّ المشروع. وكيل البحث متعدد الوسائط لا يحتاج فقط إلى معرفة محتوى الصورة، بل إلى تعلّم توقيت استخدام الأدوات: متى يبحث، متى يحسّن الصورة، متى يقرأ النص، ومتى يكفّ عن جمع الأدلة. OpenSearch-VL يحوّل هذه القرارات إلى أمثلة قابلة للتدريب بدلاً من ترك آلية استخدام الأدوات غامضة .

الأداء المعلن: أرقام واعدة، لكن الحسم مؤجل

الادعاء الأبرز في الورقة قوي: OpenSearch-VL حقق، بحسب الباحثين، تحسناً متوسطه أكثر من 10 نقاط مئوية عبر سبعة معايير للبحث العميق متعدد الوسائط، وكان قابلاً للمقارنة مع نماذج تجارية مغلقة رائدة في بعض المهام .

لكن هذا لا يعني إثبات تكافؤه كمنتج مع أنظمة OpenAI أو Google. الأدلة المتاحة هنا هي ورقة الباحثين وتغطية الإطلاق، وليست إعادة إنتاج مستقلة أو تدقيقاً عاماً مباشراً لأنظمة إنتاجية تعمل بالشروط نفسها . لذلك تبدو قيمة OpenSearch-VL حالياً تقنية ومهمة، لكنها ما زالت أولية عند الحديث عن الاعتمادية في العالم الحقيقي، وزمن الاستجابة، وسلوك الأمان، والتعافي من الأخطاء في عمليات بحث طويلة.

ماذا يميّزه عن أنظمة OpenAI وGoogle؟

عند المقارنة مع الأنظمة التجارية من OpenAI وGoogle، الفارق المؤكد والأوضح هو الانفتاح. OpenSearch-VL يُطرح كوصفة مفتوحة ومخطط تدريب مفتوح المصدر، بينما لا تكشف المواد المذكورة عن حزم تدريب مكافئة لتلك المنتجات التجارية المغلقة .

لذلك قد يكون الإطار مهماً خصوصاً للباحثين والمطورين الذين يريدون فحص طريقة تدريب وكلاء البحث متعدد الوسائط، وكيف تُبنى مسارات استخدام الأدوات، وأين تتعثر خطوات الاستدلال البصري الطويلة. أما أرقام الاختبارات فتجعله منافساً مفتوحاً جدياً، لكنها لا تحسم بعد ما إذا كان يضاهي الأنظمة المغلقة داخل بيئات الإنتاج .

ما الذي يجب متابعته؟

الاختبارات الأهم الآن ستكون عملية: هل يستطيع باحثون مستقلون إعادة إنتاج النتائج المعلنة؟ هل تعمل الوصفة خارج نطاق مجموعات التقييم الواردة في الورقة؟ وهل يتعامل الوكيل المدرب بهذه الطريقة بثبات مع أخطاء الأدوات عندما تطول سلسلة البحث؟

حتى تتضح هذه الإجابات، تبدو مساهمة OpenSearch-VL الأساسية في الشفافية. فهو يمنح مجتمع الذكاء الاصطناعي وصفة مفتوحة ومحددة لبناء وكلاء بحث متعددي الوسائط، وطريقة أوضح لاختبار ما إذا كانت الأنظمة المفتوحة قادرة فعلاً على تضييق الفجوة مع منتجات البحث الاصطناعي المملوكة .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ابحث وتحقق من الحقائق مع Studio Global AI

يسأل الناس أيضا

ما هي الإجابة المختصرة على "OpenSearch-VL من تينسنت: وصفة مفتوحة لوكلاء بحث يفهمون الصور"؟

OpenSearch VL من تينسنت هو وصفة مفتوحة المصدر لبناء وكلاء بحث ذكاء اصطناعي متعددي الوسائط، وأُدرجت الورقة على arXiv كتقديم في 6 مايو 2026 [18].

ما هي النقاط الأساسية التي يجب التحقق منها أولاً؟

ماذا يجب أن أفعل بعد ذلك في الممارسة العملية؟

أوضح فارق أمام أنظمة OpenAI وGoogle التجارية هو الشفافية وقابلية إعادة الإنتاج، لا تفوقٌ إنتاجي مثبت بعد في الاستخدام الواقعي [17][21].

المصادر

← Back to Trending