答案已发布2026年5月8日Last edited 2026年5月8日4 来源

腾讯 OpenSearch-VL：让多模态 AI 主动找证据的开源框架

OpenSearch VL 是腾讯混元与学术合作者推出的开源多模态搜索智能体训练框架，arXiv 显示论文于 2026 年 5 月 6 日提交 [18]。它让模型在看图之外主动调用网页搜索、反向搜图、OCR、裁剪、超分辨率等工具，并通过监督微调和强化学习轨迹训练多步推理 [17]。

使用 Studio Global AI 搜索并核查事实从“发现”浏览更多内容

5170

# Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide# Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. #### Minghan Xu. Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. The 2026 landscape offers mature, production-ready options across different architectural approaches, each optimized for specific use cases and team reOpen-Source AI Agent Frameworks 2026: Complete Developer ...

如果说普通多模态大模型更像是“会看图、会描述图”的助手，那么多模态搜索智能体要做的事更进一步：它需要判断当前证据够不够，缺什么信息，应该调用什么工具，再把多轮检索和图像处理结果合并推理。

腾讯这次发布的 OpenSearch-VL，正是瞄准这个方向。arXiv 页面显示，论文《OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents》于 2026 年 5 月 6 日提交 ^[18]；发布报道称，腾讯混元与加州大学洛杉矶分校（UCLA）、香港中文大学等机构联合发布了这一开源多模态训练方案 ^[21]。

腾讯到底开源了什么？

OpenSearch-VL 更准确地说是一套多模态搜索智能体训练框架，而不是面向普通用户的单一聊天产品。论文标题中的“Open Recipe”点出了重点：它试图把前沿多模态搜索智能体的训练过程，整理成研究者可以检查、复现和改造的技术配方 ^[17]。

这也解释了它为什么会被拿来和 OpenAI、Google 的闭源系统比较。真正的差别未必只在“谁的回答更好”，而在于：OpenSearch-VL 把训练数据轨迹、工具调用和强化学习方法放在更开放的框架下讨论；而本文所依据的材料中，并没有提供 OpenAI 或 Google 同等粒度的内部训练配方 ^[17]。

从“看懂图片”到“主动找证据”

早期报道把一个关键变化说得很直接：多模态大模型如何从“被动理解图像”走向“主动寻找证据并推理”，正在成为 AI 领域的重要竞争点 ^[1]。

OpenSearch-VL 的思路就是让模型不只盯着一张上传图片回答问题。论文描述的工具包括：网页搜索、反向图片搜索、OCR（光学字符识别）、图像裁剪、锐化、超分辨率和透视校正等 ^[17]。

这类工具链让它更像一个“会查证的视觉助手”：

先观察图片或视觉问题；
判断现有信息是否不足；
选择搜索、OCR 或图像增强等工具；
读取工具返回的证据；
在多轮步骤中整合结果并给出答案 ^[17]。

换句话说，OpenSearch-VL 的重点不是让模型多背一点知识，而是训练它在复杂视觉任务中“知道该去哪儿找证据”。

训练配方：SFT、RL 和容错工具调用

OpenSearch-VL 也是一套数据和训练流程。论文报告了两个关键数据集：SearchVL-SFT 包含 36,000 条监督微调轨迹，SearchVL-RL 包含 8,000 条强化学习轨迹 ^[17]。

其中，监督微调（SFT）可以理解为先用较标准的示例教模型如何完成任务；强化学习（RL）则进一步训练模型在多步工具调用中做选择。论文还提出了 Multi-round Fault-Aware GRPO，即“多轮故障感知 GRPO”，用于让智能体从多轮工具使用过程中学习，包括那些中间步骤失败、部分有效或需要修正的轨迹 ^[17]。

这一点很关键。因为发布报道提到，高质量训练数据、自动化轨迹合成路径和足够细致的训练配方，一直是顶级多模态搜索智能体难以复现的瓶颈 ^[1]。OpenSearch-VL 的价值，正是在于把这些环节整理成更完整的开源训练方案 ^[17]。

性能主张：亮眼，但要谨慎解读

论文报告称，OpenSearch-VL 在七个多模态深度搜索基准上的平均表现提升超过 10 个百分点，并在部分任务上达到可与领先闭源商业模型相比的水平 ^[17]。

这是一个值得关注的结果，但不能被简单理解为“已经全面打败 OpenAI 或 Google”。目前公开材料主要呈现的是论文作者报告的基准测试结果，并不等同于独立第三方对 OpenAI、Google 具体产品进行的逐项复现评测 ^[1]^[17]。

真实产品还要看很多论文基准之外的问题，例如长任务中的稳定性、工具调用失败后的恢复能力、延迟、安全处理，以及不同领域场景下的泛化表现。现有发布材料还不足以证明 OpenSearch-VL 在这些方面已经全面达到闭源商业系统的产品级水平。

与 OpenAI、Google 闭源系统相比，差异在哪里？

最稳妥的比较方式，是先看“开放程度”，再看“性能证据”。

关键问题	OpenSearch-VL 已说明的内容	面对闭源系统仍不清楚的部分
训练配方能否检查？	OpenSearch-VL 被定位为面向前沿多模态搜索智能体的开源配方 ^[17]。	本文依据的材料没有提供 OpenAI 或 Google 系统同等粒度的内部训练流程。
是否会调用外部证据？	会。论文描述了网页搜索、反向图片搜索、OCR 和多种图像处理工具 ^[17]。	闭源产品内部如何路由工具、如何处理失败，不在这些 OpenSearch-VL 材料的证明范围内。
是否性能更强？	作者报告七个基准平均提升超过 10 个百分点，并称部分任务可比领先闭源商业模型 ^[17]。	目前缺少独立、同条件、针对具体 OpenAI 或 Google 产品的公开验证。
对研究者的意义	可用于研究多模态搜索智能体如何训练、如何调用工具、在哪里失败 ^[17]。	闭源系统通常只能从外部体验和公开说明观察，难以复现其训练栈。

因此，OpenSearch-VL 的现实意义并不只是“又一个模型跑分”。它更像是在多模态搜索智能体领域提供了一把开源标尺：研究者和开发者可以沿着这套配方，观察智能体如何把视觉理解、外部搜索和多步推理串起来。

接下来最值得看什么？

OpenSearch-VL 下一步的关键，不是发布口径有多强，而是外部研究者能否复现和扩展它的结果。

接下来值得关注三件事：

独立团队能否复现论文中的七个基准表现；
这套训练配方能否迁移到论文评测集之外的真实场景；
多轮工具调用出现错误、无结果或噪声证据时，智能体能否稳定恢复。

结论可以说得更清楚一点：腾讯发布的新框架是 OpenSearch-VL。它最大的贡献，是为多模态 AI 搜索智能体提供了一条更开放、更细致的训练路径；它最大的悬念，是这些发布阶段的性能主张能否经受独立评测检验 ^[17]^[18]。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

OpenSearch VL 是腾讯混元与学术合作者推出的开源多模态搜索智能体训练框架，arXiv 显示论文于 2026 年 5 月 6 日提交 [18]。
它让模型在看图之外主动调用网页搜索、反向搜图、OCR、裁剪、超分辨率等工具，并通过监督微调和强化学习轨迹训练多步推理 [17]。
论文报告七个多模态深度搜索基准平均提升超过 10 个百分点、部分任务可比闭源商业模型；但目前仍缺少针对 OpenAI 或 Google 具体产品的独立复现结论 [17]。

支持视觉效果

Abstract digital illustration of open-source AI agent frameworks with connected components — Open-Source AI Agent Frameworks 2026: Complete Developer Comparison GuideA generic AI-agent framework illustration; OpenSearch-VL applies the open-source approach to multimodal search agents.Open-Source AI Agent Frameworks 2026: Complete Developer ...

Pipecat - Open-source framework for voice and multimodal conversational AIPipecat - Open-source framework for voice and multimodal conversational AI. GitHub stars · Vocode - Open-source library for building voice-based LLM agents.GitHub - Zijian-Ni/awesome-ai-agents-2026: 🤖 A curated list of AI Agent frameworks, tools, platforms, and resources for 2026 — the year agents went mainstream · GitHub

人们还问

“腾讯 OpenSearch-VL：让多模态 AI 主动找证据的开源框架”的简短答案是什么？

OpenSearch VL 是腾讯混元与学术合作者推出的开源多模态搜索智能体训练框架，arXiv 显示论文于 2026 年 5 月 6 日提交 [18]。

首先要验证的关键点是什么？

接下来在实践中我应该做什么？

论文报告七个多模态深度搜索基准平均提升超过 10 个百分点、部分任务可比闭源商业模型；但目前仍缺少针对 OpenAI 或 Google 具体产品的独立复现结论 [17]。

接下来我应该探索哪个相关主题？

继续“AMD Instinct MI350P 解析：企业 AI 为什么重新看重 PCIe”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较？

对照“比特币四年减半周期没死：现在由 ETF 资金流打拍子”交叉检查此答案。

打开相关页面

继续你的研究

MI350P PCIe GPU accelerator aimed at enterprises that want to run AI workloads on-premises without infrastructure overhaul.

AMD Instinct MI350P 解析：企业 AI 为什么重新看重 PCIe

AMD Instinct MI350P：让企业 AI 加速回到标准 PCIe 服务器

Matt Hogan: Institutional adoption is ending the four-year cycle, Bitcoin halving is losing significance, and covered call strategies are reshaping investment | Empire. With a deep

比特币四年减半周期没死：现在由 ETF 资金流打拍子

What are some AI powered accessibility apps created by Apple’s 2026 Swift Student Challenge winners, and how do they solve real world proble

学生用 AI 做无障碍：Apple Swift Student Challenge 的 4 个现实案例

Apple 2026 Swift Student Challenge：4 个用 AI 解决现实难题的无障碍应用

NVIDIA Just Invested $2 Billion to Build the First AI Factories DailyNoons 106 subscribers 4 likes 414 views 1 Apr 2026 NVIDIA just made a **massive move in the AI infrastructure r

英伟达押注 IREN：AI 数据中心进入“电力优先”时代

来源

[1] Tencent Releases OpenSearch-VL: A Comprehensive Solution for ...news.aibase.com
Tencent Releases OpenSearch-VL: A Comprehensive Solution for Open-Source Multimodal Deep Search Agent Published in Latest AI NewsTime :May 7, 2026Read :6minute With the rapid development of multimodal large language models (MLLMs), how to enable models to e...
[17] OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agentsarxiv.org
Multimodal Search Agents Shawn Chen1,2, Kaituo Feng3, Hangting Chen1, Wenxuan Huang3, Dasen Dai3, Quanxin Shou2,4 Yunlong Lin3, Xiangyu Yue3, Shenghua Gao4, Tianyu Pang1,†
[18] An Open Recipe for Frontier Multimodal Search Agents - arXivarxiv.org
Computer Science Computer Vision and Pattern Recognition arXiv:2605.05185 (cs) [Submitted on 6 May 2026]
[21] 腾讯开源OpenSearch-VL，突破多模态搜索AI智能体训练瓶颈163.com
IT之家 5 月 7 日消息，腾讯混元（Tencent Hunyuan）携手加州大学洛杉矶分校（UCLA）、香港中文大学等学府，联合发布 OpenSearch-VL 开源多模态训练方案，通过强化学习（RL）技术，打造具备前沿能力的深度搜索智能体。

热门发现

答案已发布2026年5月8日Last edited 2026年5月8日4 来源

腾讯 OpenSearch-VL：让多模态 AI 主动找证据的开源框架

使用 Studio Global AI 搜索并核查事实从“发现”浏览更多内容

5170

腾讯到底开源了什么？

从“看懂图片”到“主动找证据”

早期报道把一个关键变化说得很直接：多模态大模型如何从“被动理解图像”走向“主动寻找证据并推理”，正在成为 AI 领域的重要竞争点 ^[1]。

这类工具链让它更像一个“会查证的视觉助手”：

先观察图片或视觉问题；
判断现有信息是否不足；
选择搜索、OCR 或图像增强等工具；
读取工具返回的证据；
在多轮步骤中整合结果并给出答案 ^[17]。

换句话说，OpenSearch-VL 的重点不是让模型多背一点知识，而是训练它在复杂视觉任务中“知道该去哪儿找证据”。

训练配方：SFT、RL 和容错工具调用

OpenSearch-VL 也是一套数据和训练流程。论文报告了两个关键数据集：SearchVL-SFT 包含 36,000 条监督微调轨迹，SearchVL-RL 包含 8,000 条强化学习轨迹 ^[17]。

性能主张：亮眼，但要谨慎解读

论文报告称，OpenSearch-VL 在七个多模态深度搜索基准上的平均表现提升超过 10 个百分点，并在部分任务上达到可与领先闭源商业模型相比的水平 ^[17]。

与 OpenAI、Google 闭源系统相比，差异在哪里？

最稳妥的比较方式，是先看“开放程度”，再看“性能证据”。

关键问题	OpenSearch-VL 已说明的内容	面对闭源系统仍不清楚的部分
训练配方能否检查？	OpenSearch-VL 被定位为面向前沿多模态搜索智能体的开源配方 ^[17]。	本文依据的材料没有提供 OpenAI 或 Google 系统同等粒度的内部训练流程。
是否会调用外部证据？	会。论文描述了网页搜索、反向图片搜索、OCR 和多种图像处理工具 ^[17]。	闭源产品内部如何路由工具、如何处理失败，不在这些 OpenSearch-VL 材料的证明范围内。
是否性能更强？	作者报告七个基准平均提升超过 10 个百分点，并称部分任务可比领先闭源商业模型 ^[17]。	目前缺少独立、同条件、针对具体 OpenAI 或 Google 产品的公开验证。
对研究者的意义	可用于研究多模态搜索智能体如何训练、如何调用工具、在哪里失败 ^[17]。	闭源系统通常只能从外部体验和公开说明观察，难以复现其训练栈。

接下来最值得看什么？

OpenSearch-VL 下一步的关键，不是发布口径有多强，而是外部研究者能否复现和扩展它的结果。

接下来值得关注三件事：

独立团队能否复现论文中的七个基准表现；
这套训练配方能否迁移到论文评测集之外的真实场景；
多轮工具调用出现错误、无结果或噪声证据时，智能体能否稳定恢复。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

OpenSearch VL 是腾讯混元与学术合作者推出的开源多模态搜索智能体训练框架，arXiv 显示论文于 2026 年 5 月 6 日提交 [18]。
它让模型在看图之外主动调用网页搜索、反向搜图、OCR、裁剪、超分辨率等工具，并通过监督微调和强化学习轨迹训练多步推理 [17]。
论文报告七个多模态深度搜索基准平均提升超过 10 个百分点、部分任务可比闭源商业模型；但目前仍缺少针对 OpenAI 或 Google 具体产品的独立复现结论 [17]。

支持视觉效果

人们还问

“腾讯 OpenSearch-VL：让多模态 AI 主动找证据的开源框架”的简短答案是什么？

OpenSearch VL 是腾讯混元与学术合作者推出的开源多模态搜索智能体训练框架，arXiv 显示论文于 2026 年 5 月 6 日提交 [18]。

首先要验证的关键点是什么？

接下来在实践中我应该做什么？

接下来我应该探索哪个相关主题？

继续“AMD Instinct MI350P 解析：企业 AI 为什么重新看重 PCIe”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较？

对照“比特币四年减半周期没死：现在由 ETF 资金流打拍子”交叉检查此答案。

打开相关页面

继续你的研究

AMD Instinct MI350P 解析：企业 AI 为什么重新看重 PCIe

AMD Instinct MI350P：让企业 AI 加速回到标准 PCIe 服务器

比特币四年减半周期没死：现在由 ETF 资金流打拍子

学生用 AI 做无障碍：Apple Swift Student Challenge 的 4 个现实案例

Apple 2026 Swift Student Challenge：4 个用 AI 解决现实难题的无障碍应用

英伟达押注 IREN：AI 数据中心进入“电力优先”时代

来源

[1] Tencent Releases OpenSearch-VL: A Comprehensive Solution for ...news.aibase.com
Tencent Releases OpenSearch-VL: A Comprehensive Solution for Open-Source Multimodal Deep Search Agent Published in Latest AI NewsTime :May 7, 2026Read :6minute With the rapid development of multimodal large language models (MLLMs), how to enable models to e...
[17] OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agentsarxiv.org
Multimodal Search Agents Shawn Chen1,2, Kaituo Feng3, Hangting Chen1, Wenxuan Huang3, Dasen Dai3, Quanxin Shou2,4 Yunlong Lin3, Xiangyu Yue3, Shenghua Gao4, Tianyu Pang1,†
[18] An Open Recipe for Frontier Multimodal Search Agents - arXivarxiv.org
Computer Science Computer Vision and Pattern Recognition arXiv:2605.05185 (cs) [Submitted on 6 May 2026]
[21] 腾讯开源OpenSearch-VL，突破多模态搜索AI智能体训练瓶颈163.com
IT之家 5 月 7 日消息，腾讯混元（Tencent Hunyuan）携手加州大学洛杉矶分校（UCLA）、香港中文大学等学府，联合发布 OpenSearch-VL 开源多模态训练方案，通过强化学习（RL）技术，打造具备前沿能力的深度搜索智能体。

热门发现

答案已发布2026年5月8日Last edited 2026年5月8日4 来源

腾讯 OpenSearch-VL：让多模态 AI 主动找证据的开源框架

使用 Studio Global AI 搜索并核查事实从“发现”浏览更多内容

5170

腾讯到底开源了什么？

从“看懂图片”到“主动找证据”

早期报道把一个关键变化说得很直接：多模态大模型如何从“被动理解图像”走向“主动寻找证据并推理”，正在成为 AI 领域的重要竞争点 ^[1]。

这类工具链让它更像一个“会查证的视觉助手”：

先观察图片或视觉问题；
判断现有信息是否不足；
选择搜索、OCR 或图像增强等工具；
读取工具返回的证据；
在多轮步骤中整合结果并给出答案 ^[17]。

换句话说，OpenSearch-VL 的重点不是让模型多背一点知识，而是训练它在复杂视觉任务中“知道该去哪儿找证据”。

训练配方：SFT、RL 和容错工具调用

OpenSearch-VL 也是一套数据和训练流程。论文报告了两个关键数据集：SearchVL-SFT 包含 36,000 条监督微调轨迹，SearchVL-RL 包含 8,000 条强化学习轨迹 ^[17]。

性能主张：亮眼，但要谨慎解读

论文报告称，OpenSearch-VL 在七个多模态深度搜索基准上的平均表现提升超过 10 个百分点，并在部分任务上达到可与领先闭源商业模型相比的水平 ^[17]。

与 OpenAI、Google 闭源系统相比，差异在哪里？

最稳妥的比较方式，是先看“开放程度”，再看“性能证据”。

关键问题	OpenSearch-VL 已说明的内容	面对闭源系统仍不清楚的部分
训练配方能否检查？	OpenSearch-VL 被定位为面向前沿多模态搜索智能体的开源配方 ^[17]。	本文依据的材料没有提供 OpenAI 或 Google 系统同等粒度的内部训练流程。
是否会调用外部证据？	会。论文描述了网页搜索、反向图片搜索、OCR 和多种图像处理工具 ^[17]。	闭源产品内部如何路由工具、如何处理失败，不在这些 OpenSearch-VL 材料的证明范围内。
是否性能更强？	作者报告七个基准平均提升超过 10 个百分点，并称部分任务可比领先闭源商业模型 ^[17]。	目前缺少独立、同条件、针对具体 OpenAI 或 Google 产品的公开验证。
对研究者的意义	可用于研究多模态搜索智能体如何训练、如何调用工具、在哪里失败 ^[17]。	闭源系统通常只能从外部体验和公开说明观察，难以复现其训练栈。

接下来最值得看什么？

OpenSearch-VL 下一步的关键，不是发布口径有多强，而是外部研究者能否复现和扩展它的结果。

接下来值得关注三件事：

独立团队能否复现论文中的七个基准表现；
这套训练配方能否迁移到论文评测集之外的真实场景；
多轮工具调用出现错误、无结果或噪声证据时，智能体能否稳定恢复。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

OpenSearch VL 是腾讯混元与学术合作者推出的开源多模态搜索智能体训练框架，arXiv 显示论文于 2026 年 5 月 6 日提交 [18]。
它让模型在看图之外主动调用网页搜索、反向搜图、OCR、裁剪、超分辨率等工具，并通过监督微调和强化学习轨迹训练多步推理 [17]。
论文报告七个多模态深度搜索基准平均提升超过 10 个百分点、部分任务可比闭源商业模型；但目前仍缺少针对 OpenAI 或 Google 具体产品的独立复现结论 [17]。

支持视觉效果

人们还问

“腾讯 OpenSearch-VL：让多模态 AI 主动找证据的开源框架”的简短答案是什么？

OpenSearch VL 是腾讯混元与学术合作者推出的开源多模态搜索智能体训练框架，arXiv 显示论文于 2026 年 5 月 6 日提交 [18]。

首先要验证的关键点是什么？

接下来在实践中我应该做什么？

接下来我应该探索哪个相关主题？

继续“AMD Instinct MI350P 解析：企业 AI 为什么重新看重 PCIe”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较？

对照“比特币四年减半周期没死：现在由 ETF 资金流打拍子”交叉检查此答案。

打开相关页面

继续你的研究

来源

[1] Tencent Releases OpenSearch-VL: A Comprehensive Solution for ...news.aibase.com
Tencent Releases OpenSearch-VL: A Comprehensive Solution for Open-Source Multimodal Deep Search Agent Published in Latest AI NewsTime :May 7, 2026Read :6minute With the rapid development of multimodal large language models (MLLMs), how to enable models to e...
[17] OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agentsarxiv.org
Multimodal Search Agents Shawn Chen1,2, Kaituo Feng3, Hangting Chen1, Wenxuan Huang3, Dasen Dai3, Quanxin Shou2,4 Yunlong Lin3, Xiangyu Yue3, Shenghua Gao4, Tianyu Pang1,†
[18] An Open Recipe for Frontier Multimodal Search Agents - arXivarxiv.org
Computer Science Computer Vision and Pattern Recognition arXiv:2605.05185 (cs) [Submitted on 6 May 2026]
[21] 腾讯开源OpenSearch-VL，突破多模态搜索AI智能体训练瓶颈163.com
IT之家 5 月 7 日消息，腾讯混元（Tencent Hunyuan）携手加州大学洛杉矶分校（UCLA）、香港中文大学等学府，联合发布 OpenSearch-VL 开源多模态训练方案，通过强化学习（RL）技术，打造具备前沿能力的深度搜索智能体。