如果说普通多模态大模型更像是“会看图、会描述图”的助手,那么多模态搜索智能体要做的事更进一步:它需要判断当前证据够不够,缺什么信息,应该调用什么工具,再把多轮检索和图像处理结果合并推理。
腾讯这次发布的 OpenSearch-VL,正是瞄准这个方向。arXiv 页面显示,论文《OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents》于 2026 年 5 月 6 日提交 [18];发布报道称,腾讯混元与加州大学洛杉矶分校(UCLA)、香港中文大学等机构联合发布了这一开源多模态训练方案 [
21]。
腾讯到底开源了什么?
OpenSearch-VL 更准确地说是一套多模态搜索智能体训练框架,而不是面向普通用户的单一聊天产品。论文标题中的“Open Recipe”点出了重点:它试图把前沿多模态搜索智能体的训练过程,整理成研究者可以检查、复现和改造的技术配方 [17]。
这也解释了它为什么会被拿来和 OpenAI、Google 的闭源系统比较。真正的差别未必只在“谁的回答更好”,而在于:OpenSearch-VL 把训练数据轨迹、工具调用和强化学习方法放在更开放的框架下讨论;而本文所依据的材料中,并没有提供 OpenAI 或 Google 同等粒度的内部训练配方 [17]。
从“看懂图片”到“主动找证据”
早期报道把一个关键变化说得很直接:多模态大模型如何从“被动理解图像”走向“主动寻找证据并推理”,正在成为 AI 领域的重要竞争点 [1]。
OpenSearch-VL 的思路就是让模型不只盯着一张上传图片回答问题。论文描述的工具包括:网页搜索、反向图片搜索、OCR(光学字符识别)、图像裁剪、锐化、超分辨率和透视校正等 [17]。
这类工具链让它更像一个“会查证的视觉助手”:
- 先观察图片或视觉问题;
- 判断现有信息是否不足;
- 选择搜索、OCR 或图像增强等工具;
- 读取工具返回的证据;
- 在多轮步骤中整合结果并给出答案 [
17]。
换句话说,OpenSearch-VL 的重点不是让模型多背一点知识,而是训练它在复杂视觉任务中“知道该去哪儿找证据”。
训练配方:SFT、RL 和容错工具调用
OpenSearch-VL 也是一套数据和训练流程。论文报告了两个关键数据集:SearchVL-SFT 包含 36,000 条监督微调轨迹,SearchVL-RL 包含 8,000 条强化学习轨迹 [17]。
其中,监督微调(SFT)可以理解为先用较标准的示例教模型如何完成任务;强化学习(RL)则进一步训练模型在多步工具调用中做选择。论文还提出了 Multi-round Fault-Aware GRPO,即“多轮故障感知 GRPO”,用于让智能体从多轮工具使用过程中学习,包括那些中间步骤失败、部分有效或需要修正的轨迹 [17]。
这一点很关键。因为发布报道提到,高质量训练数据、自动化轨迹合成路径和足够细致的训练配方,一直是顶级多模态搜索智能体难以复现的瓶颈 [1]。OpenSearch-VL 的价值,正是在于把这些环节整理成更完整的开源训练方案 [
17]。
性能主张:亮眼,但要谨慎解读
论文报告称,OpenSearch-VL 在七个多模态深度搜索基准上的平均表现提升超过 10 个百分点,并在部分任务上达到可与领先闭源商业模型相比的水平 [17]。
这是一个值得关注的结果,但不能被简单理解为“已经全面打败 OpenAI 或 Google”。目前公开材料主要呈现的是论文作者报告的基准测试结果,并不等同于独立第三方对 OpenAI、Google 具体产品进行的逐项复现评测 [1][
17]。
真实产品还要看很多论文基准之外的问题,例如长任务中的稳定性、工具调用失败后的恢复能力、延迟、安全处理,以及不同领域场景下的泛化表现。现有发布材料还不足以证明 OpenSearch-VL 在这些方面已经全面达到闭源商业系统的产品级水平。
与 OpenAI、Google 闭源系统相比,差异在哪里?
最稳妥的比较方式,是先看“开放程度”,再看“性能证据”。
| 关键问题 | OpenSearch-VL 已说明的内容 | 面对闭源系统仍不清楚的部分 |
|---|---|---|
| 训练配方能否检查? | OpenSearch-VL 被定位为面向前沿多模态搜索智能体的开源配方 [ | 本文依据的材料没有提供 OpenAI 或 Google 系统同等粒度的内部训练流程。 |
| 是否会调用外部证据? | 会。论文描述了网页搜索、反向图片搜索、OCR 和多种图像处理工具 [ | 闭源产品内部如何路由工具、如何处理失败,不在这些 OpenSearch-VL 材料的证明范围内。 |
| 是否性能更强? | 作者报告七个基准平均提升超过 10 个百分点,并称部分任务可比领先闭源商业模型 [ | 目前缺少独立、同条件、针对具体 OpenAI 或 Google 产品的公开验证。 |
| 对研究者的意义 | 可用于研究多模态搜索智能体如何训练、如何调用工具、在哪里失败 [ | 闭源系统通常只能从外部体验和公开说明观察,难以复现其训练栈。 |
因此,OpenSearch-VL 的现实意义并不只是“又一个模型跑分”。它更像是在多模态搜索智能体领域提供了一把开源标尺:研究者和开发者可以沿着这套配方,观察智能体如何把视觉理解、外部搜索和多步推理串起来。
接下来最值得看什么?
OpenSearch-VL 下一步的关键,不是发布口径有多强,而是外部研究者能否复现和扩展它的结果。
接下来值得关注三件事:
- 独立团队能否复现论文中的七个基准表现;
- 这套训练配方能否迁移到论文评测集之外的真实场景;
- 多轮工具调用出现错误、无结果或噪声证据时,智能体能否稳定恢复。
结论可以说得更清楚一点:腾讯发布的新框架是 OpenSearch-VL。它最大的贡献,是为多模态 AI 搜索智能体提供了一条更开放、更细致的训练路径;它最大的悬念,是这些发布阶段的性能主张能否经受独立评测检验 [17][
18]。





