OpenSearch-VL expliqué : la recette open source de Tencent pour la recherche multimodale
OpenSearch VL est une recette open source de Tencent pour entraîner des agents IA de recherche multimodale, et non un chatbot grand public. Le cadre apprend aux modèles à utiliser des outils comme la recherche web, la recherche inversée d’image, l’OCR, le recadrage, l’amélioration d’image et la correction de perspec...
Tencent OpenSearch-VL: Open-Source Multimodal Search Agents vsAI-generated editorial illustration for Tencent OpenSearch-VL and multimodal AI search agents.
Prompt IA
Create a landscape editorial hero image for this Studio Global article: Tencent OpenSearch-VL: Open-Source Multimodal Search Agents vs. OpenAI and Google. Article summary: OpenSearch VL is Tencent Hunyuan’s open source recipe for multimodal AI search agents, submitted to arXiv on May 6, 2026; it uses tools such as web search, OCR and image processing, but claims of parity with closed Op.... Topic tags: ai, ai agents, multimodal ai, open source, tencent. Reference image context from search candidates: Reference image 1: visual subject "OpenAI Updates Codex: Supports Mac Desktop Control, Multi-Agent Parallelism, and Long-Term Task Execution" source context "Google: AI Agents, Multimodal AI, and Enterprise Search Will Dominate by 2025" Reference image 2: visual subject "Google Releases Veo3.1Lite: Video Generation Cost Reduced by Over 50% Supports 1080p Multi-Format Output" source context "
openai.com
OpenSearch-VL n’est pas le nouveau chatbot grand public de Tencent. C’est surtout une recette d’entraînement open source pour construire des agents de recherche multimodale : des systèmes capables de partir d’une image, d’identifier les informations manquantes, d’utiliser des outils externes et de raisonner en plusieurs étapes [17]. Le papier est indiqué sur arXiv, le serveur de prépublications scientifiques, comme soumis le 6 mai 2026 [18]. Les premiers articles de lancement associent Tencent Hunyuan à l’UCLA et à l’Université chinoise de Hong Kong dans cette publication [21].
Le problème visé : rendre les agents multimodaux reproductibles
Le point de départ d’OpenSearch-VL est assez simple : les grands modèles vision-langage savent de mieux en mieux décrire ou interpréter une image, mais cela ne suffit pas toujours pour répondre à une question difficile. Dans beaucoup de cas, il faut chercher un indice ailleurs, vérifier une source, lire un texte minuscule ou reconstituer un détail mal cadré.
Les premières couvertures du lancement résument ainsi le prochain défi des modèles multimodaux : passer d’une compréhension « passive » des images à une capacité plus active de recherche de preuves et de raisonnement. Elles soulignent aussi un frein majeur : le manque de données de trajectoires de haute qualité, de méthodes automatisées pour les produire et de recettes d’entraînement suffisamment détaillées pour être reproduites [1].
Studio Global AI
Search, cite, and publish your own answer
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
OpenSearch VL est une recette open source de Tencent pour entraîner des agents IA de recherche multimodale, et non un chatbot grand public.
Le cadre apprend aux modèles à utiliser des outils comme la recherche web, la recherche inversée d’image, l’OCR, le recadrage, l’amélioration d’image et la correction de perspective.
Son principal atout face aux systèmes propriétaires d’OpenAI et de Google est la transparence ; sa supériorité en conditions réelles reste à démontrer indépendamment.
Les gens demandent aussi
Câu trả lời ngắn gọn cho "OpenSearch-VL expliqué : la recette open source de Tencent pour la recherche multimodale" là gì?
OpenSearch VL est une recette open source de Tencent pour entraîner des agents IA de recherche multimodale, et non un chatbot grand public.
Những điểm chính cần xác nhận đầu tiên là gì?
OpenSearch VL est une recette open source de Tencent pour entraîner des agents IA de recherche multimodale, et non un chatbot grand public. Le cadre apprend aux modèles à utiliser des outils comme la recherche web, la recherche inversée d’image, l’OCR, le recadrage, l’amélioration d’image et la correction de perspective.
Tôi nên làm gì tiếp theo trong thực tế?
Son principal atout face aux systèmes propriétaires d’OpenAI et de Google est la transparence ; sa supériorité en conditions réelles reste à démontrer indépendamment.
Tôi nên khám phá chủ đề liên quan nào tiếp theo?
Tiếp tục với "Vì sao Bitcoin vẫn bám quanh 80.000 USD dù ETF giao ngay bị rút vốn?" để có góc nhìn khác và trích dẫn bổ sung.
Tencent Releases OpenSearch-VL: A Comprehensive Solution for Open-Source Multimodal Deep Search Agent Published in Latest AI NewsTime :May 7, 2026Read :6minute With the rapid development of multimodal large language models (MLLMs), how to enable models to e...
OpenSearch-VL répond à ce manque en publiant un cadre plus explicite : données, orchestration d’outils, affinage supervisé, apprentissage par renforcement et évaluation autour de la recherche multimodale profonde [17].
Une IA qui ne se contente pas de regarder l’image
Un modèle vision-langage classique peut décrire une photo ou répondre à une question à partir de ce qui est visible. OpenSearch-VL vise autre chose : une boucle d’agent capable de décider quand il doit utiliser un outil.
Le papier décrit des agents pouvant appeler la recherche web, la recherche inversée d’image, l’OCR — la reconnaissance optique de caractères —, le recadrage, l’accentuation, la super-résolution et la correction de perspective [17].
C’est crucial pour les tâches de recherche visuelle. Une image peut contenir un panneau flou, un monument partiellement coupé, un objet photographié sous un angle trompeur ou un détail qui ne prend sens qu’avec une vérification externe. Dans l’approche OpenSearch-VL, le modèle peut déterminer quelle preuve lui manque, appliquer un outil de récupération ou de traitement d’image, puis réinjecter le résultat dans les étapes suivantes de son raisonnement [17].
La recette d’entraînement : SFT, RL et gestion des erreurs
Le projet met l’accent sur les « trajectoires », c’est-à-dire les suites d’actions que l’agent apprend à suivre : quand chercher, quand améliorer l’image, quand lire du texte, quand corriger une piste et quand s’arrêter.
Le papier présente deux jeux de données : SearchVL-SFT, avec 36 000 trajectoires pour l’affinage supervisé, et SearchVL-RL, avec 8 000 trajectoires pour l’apprentissage par renforcement [17]. Il introduit aussi Multi-round Fault-Aware GRPO, une méthode d’entraînement pensée pour les parcours en plusieurs étapes où une action intermédiaire peut échouer, n’aider qu’en partie ou exiger une correction [17].
L’intérêt est là : un agent de recherche multimodale ne doit pas seulement reconnaître ce qui se trouve dans une image. Il doit apprendre à gérer l’incertitude, à choisir le bon outil et à ne pas confondre un résultat partiel avec une réponse définitive.
Des résultats prometteurs, mais pas encore une preuve de parité produit
La revendication de performance est ambitieuse. Les auteurs rapportent une amélioration moyenne de plus de 10 points de pourcentage sur sept benchmarks de recherche multimodale profonde, et indiquent qu’OpenSearch-VL est comparable à des modèles commerciaux fermés de premier plan sur certaines tâches [17].
Mais cela ne signifie pas que le système a déjà prouvé une équivalence complète avec les produits d’OpenAI ou de Google en conditions réelles. Les éléments disponibles ici viennent du papier des auteurs et de la couverture de lancement, pas d’une reproduction indépendante ni d’un audit public strictement comparable de systèmes en production [1][17].
Autrement dit, OpenSearch-VL est une proposition technique sérieuse, mais encore préliminaire sur des aspects très concrets : fiabilité au long cours, latence, robustesse face aux erreurs d’outils, comportement de sécurité et capacité à récupérer après plusieurs mauvaises pistes.
Face à OpenAI et Google, la différence la plus nette est l’ouverture
Pour les lecteurs qui comparent OpenSearch-VL aux systèmes propriétaires d’OpenAI et de Google, le point le mieux établi n’est pas un score isolé : c’est la transparence. OpenSearch-VL est présenté comme une recette ouverte pour entraîner des agents de recherche multimodale, tandis que les documents cités ici ne fournissent pas de pile d’entraînement équivalente pour ces produits commerciaux fermés [17][21].
C’est précisément ce qui peut intéresser les laboratoires, développeurs et équipes produit : observer comment les trajectoires d’usage d’outils sont construites, comment l’apprentissage par renforcement est appliqué, et où les raisonnements visuels en plusieurs étapes ont tendance à échouer.
Ce qu’il faudra surveiller maintenant
Les prochains tests importants seront moins spectaculaires que les annonces, mais plus décisifs : des équipes externes parviendront-elles à reproduire les résultats annoncés ? La méthode fonctionnera-t-elle dans des domaines qui ne ressemblent pas aux benchmarks du papier ? Les agents entraînés avec cette recette sauront-ils gérer proprement les outils défaillants ou les indices contradictoires dans des recherches longues ?
En attendant, la principale contribution d’OpenSearch-VL est la lisibilité. Le projet donne à la communauté IA une base ouverte pour expérimenter les agents de recherche multimodale — et une manière plus concrète de mesurer si les approches ouvertes peuvent réduire l’écart avec les systèmes propriétaires [17][18][21].
Không kích ở Gaza phơi bày điểm yếu của lệnh ngừng bắn do Mỹ làm trung gian
Các cuộc không kích của Israel cho thấy lệnh ngừng bắn ở Gaza mong manh đến đâu