RéponsesPubliéil y a 3 joursLast edited hier4 sources

OpenSearch-VL expliqué : la recette open source de Tencent pour la recherche multimodale

OpenSearch VL est une recette open source de Tencent pour entraîner des agents IA de recherche multimodale, et non un chatbot grand public. Le cadre apprend aux modèles à utiliser des outils comme la recherche web, la recherche inversée d’image, l’OCR, le recadrage, l’amélioration d’image et la correction de perspec...

Rechercher et vérifier les faits avec Studio Global AI Voir plus de pages tendance

65K0

Illustration of a multimodal AI search agent combining image analysis, web search and reasoning tools — Tencent OpenSearch-VL: Open-Source Multimodal Search Agents vsAI-generated editorial illustration for Tencent OpenSearch-VL and multimodal AI search agents.
Prompt IA
Create a landscape editorial hero image for this Studio Global article: Tencent OpenSearch-VL: Open-Source Multimodal Search Agents vs. OpenAI and Google. Article summary: OpenSearch VL is Tencent Hunyuan’s open source recipe for multimodal AI search agents, submitted to arXiv on May 6, 2026; it uses tools such as web search, OCR and image processing, but claims of parity with closed Op.... Topic tags: ai, ai agents, multimodal ai, open source, tencent. Reference image context from search candidates: Reference image 1: visual subject "OpenAI Updates Codex: Supports Mac Desktop Control, Multi-Agent Parallelism, and Long-Term Task Execution" source context "Google: AI Agents, Multimodal AI, and Enterprise Search Will Dominate by 2025" Reference image 2: visual subject "Google Releases Veo3.1Lite: Video Generation Cost Reduced by Over 50% Supports 1080p Multi-Format Output" source context "
openai.com

OpenSearch-VL n’est pas le nouveau chatbot grand public de Tencent. C’est surtout une recette d’entraînement open source pour construire des agents de recherche multimodale : des systèmes capables de partir d’une image, d’identifier les informations manquantes, d’utiliser des outils externes et de raisonner en plusieurs étapes ^[17]. Le papier est indiqué sur arXiv, le serveur de prépublications scientifiques, comme soumis le 6 mai 2026 ^[18]. Les premiers articles de lancement associent Tencent Hunyuan à l’UCLA et à l’Université chinoise de Hong Kong dans cette publication ^[21].

Le problème visé : rendre les agents multimodaux reproductibles

Le point de départ d’OpenSearch-VL est assez simple : les grands modèles vision-langage savent de mieux en mieux décrire ou interpréter une image, mais cela ne suffit pas toujours pour répondre à une question difficile. Dans beaucoup de cas, il faut chercher un indice ailleurs, vérifier une source, lire un texte minuscule ou reconstituer un détail mal cadré.

Les premières couvertures du lancement résument ainsi le prochain défi des modèles multimodaux : passer d’une compréhension « passive » des images à une capacité plus active de recherche de preuves et de raisonnement. Elles soulignent aussi un frein majeur : le manque de données de trajectoires de haute qualité, de méthodes automatisées pour les produire et de recettes d’entraînement suffisamment détaillées pour être reproduites ^[1].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Rechercher et vérifier les faits avec Studio Global AI

Points clés à retenir

OpenSearch VL est une recette open source de Tencent pour entraîner des agents IA de recherche multimodale, et non un chatbot grand public.
Le cadre apprend aux modèles à utiliser des outils comme la recherche web, la recherche inversée d’image, l’OCR, le recadrage, l’amélioration d’image et la correction de perspective.
Son principal atout face aux systèmes propriétaires d’OpenAI et de Google est la transparence ; sa supériorité en conditions réelles reste à démontrer indépendamment.

Les gens demandent aussi

Câu trả lời ngắn gọn cho "OpenSearch-VL expliqué : la recette open source de Tencent pour la recherche multimodale" là gì?

OpenSearch VL est une recette open source de Tencent pour entraîner des agents IA de recherche multimodale, et non un chatbot grand public.

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Son principal atout face aux systèmes propriétaires d’OpenAI et de Google est la transparence ; sa supériorité en conditions réelles reste à démontrer indépendamment.

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Vì sao Bitcoin vẫn bám quanh 80.000 USD dù ETF giao ngay bị rút vốn?" để có góc nhìn khác và trích dẫn bổ sung.

Ouvrir la page associée

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "Dua Lipa kiện Samsung: Vì sao một bức ảnh trên hộp TV có thể thành vụ đòi 15 triệu USD?".

Ouvrir la page associée

Continuez vos recherches

The chart compares inflows and outflows of Bitcoin ETFs and gold shares over seven years, with U.S. Spot Bitcoin ETFs showing large inflows in the first three years and gold shares

Vì sao Bitcoin vẫn bám quanh 80.000 USD dù ETF giao ngay bị rút vốn?

Pop star Dua Lipa has filed a lawsuit worth about 22 billion won against Samsung Electronics. On the 8th (local time), foreign media reported that Dua Lipa filed a lawsuit against

Dua Lipa kiện Samsung: Vì sao một bức ảnh trên hộp TV có thể thành vụ đòi 15 triệu USD?

Dua Lipa kiện Samsung, đòi 15 triệu USD: Vụ việc thực chất là gì?

Israel launches deadly strikes in Gaza in new ceasefire violations. The Israeli military continues to demolish structures in northern Gaza while

Sources

[1] Tencent Releases OpenSearch-VL: A Comprehensive Solution for ...news.aibase.com
Tencent Releases OpenSearch-VL: A Comprehensive Solution for Open-Source Multimodal Deep Search Agent Published in Latest AI NewsTime :May 7, 2026Read :6minute With the rapid development of multimodal large language models (MLLMs), how to enable models to e...
[17] OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agentsarxiv.org
Multimodal Search Agents Shawn Chen1,2, Kaituo Feng3, Hangting Chen1, Wenxuan Huang3, Dasen Dai3, Quanxin Shou2,4 Yunlong Lin3, Xiangyu Yue3, Shenghua Gao4, Tianyu Pang1,†
[18] An Open Recipe for Frontier Multimodal Search Agents - arXivarxiv.org
Computer Science Computer Vision and Pattern Recognition arXiv:2605.05185 (cs) [Submitted on 6 May 2026]
[21] 腾讯开源OpenSearch-VL，突破多模态搜索AI智能体训练瓶颈163.com
IT之家 5 月 7 日消息，腾讯混元（Tencent Hunyuan）携手加州大学洛杉矶分校（UCLA）、香港中文大学等学府，联合发布 OpenSearch-VL 开源多模态训练方案，通过强化学习（RL）技术，打造具备前沿能力的深度搜索智能体。

OpenSearch-VL expliqué : la recette open source de Tencent pour la recherche multimodale

Le problème visé : rendre les agents multimodaux reproductibles

Search, cite, and publish your own answer

Points clés à retenir

Les gens demandent aussi

Câu trả lời ngắn gọn cho "OpenSearch-VL expliqué : la recette open source de Tencent pour la recherche multimodale" là gì?

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tôi nên so sánh điều này với cái gì?

Continuez vos recherches

Vì sao Bitcoin vẫn bám quanh 80.000 USD dù ETF giao ngay bị rút vốn?

Dua Lipa kiện Samsung: Vì sao một bức ảnh trên hộp TV có thể thành vụ đòi 15 triệu USD?

Sources

Une IA qui ne se contente pas de regarder l’image

La recette d’entraînement : SFT, RL et gestion des erreurs

Des résultats prometteurs, mais pas encore une preuve de parité produit

Face à OpenAI et Google, la différence la plus nette est l’ouverture

Ce qu’il faudra surveiller maintenant

Không kích ở Gaza phơi bày điểm yếu của lệnh ngừng bắn do Mỹ làm trung gian

Cú nhảy 80 lần của Anthropic: cầu AI doanh nghiệp là thật, nhưng capex không có “séc trắng”