簡單講,騰訊今次釋出嘅新框架叫 OpenSearch-VL。論文把它形容為一套建立前沿多模態搜尋代理的開放「配方」(open recipe),arXiv 顯示論文於 2026年5月6日提交 [2]。
它唔係純粹「睇張相然後答問題」的模型,而係想訓練 AI agent(智能代理)主動搵資料:一邊理解圖片,一邊調用外部工具,逐步搜尋、核對、再推理。
OpenSearch-VL 做乜?
OpenSearch-VL 的核心,是令多模態模型由「被動理解圖片」變成「主動尋找證據」。根據早期報道,它可使用的工具包括網頁搜尋、反向圖片搜尋、OCR 文字辨識、圖片裁剪、銳化、超解像,以及透視校正等 [3]。
可以咁理解:如果模型面前係一張又細又模糊、角度又歪的圖片,它唔一定要即刻估答案,而可以先裁剪重點位置、改善清晰度、做 OCR 抽文字,甚至用反向搜圖搵相關資料,再整合成答案。呢種「多步搵證據」正正係多模態搜尋代理同傳統影像問答模型的分別。
邊個發布?
這項工作來自 Tencent Hunyuan(騰訊混元),合作者包括 UCLA(加州大學洛杉磯分校)和 香港中文大學;相關作者和機構亦見於論文及早期報道 [1][
3]。
訓練方法有咩特別?
OpenSearch-VL 唔只是一個模型名稱,而是一套訓練方案。項目包括監督式微調和強化學習資料,例如 SearchVL-SFT 的 36,000 條軌跡,以及 SearchVL-RL 的 8,000 條軌跡 [3]。
報道亦提到一個名為 Multi-round Fault-Aware GRPO 的訓練方法,目標是讓模型可從部分失敗的工具使用軌跡中學習,而唔係一遇到搜尋或工具調用出錯就整個推理崩潰 [3]。
同 OpenAI、Google 的閉源系統點比?
最大分別唔係一句「邊個一定更勁」就講得完,而係 開放程度。
OpenAI 和 Google 的同類多模態搜尋/研究代理大多屬於閉源商業系統;OpenSearch-VL 則被定位為開源替代方案,目標是釋出訓練資料、代碼和模型權重,方便研究人員重現、審視和改良 [3]。
性能方面,騰訊報告指 OpenSearch-VL 在七個多模態深度搜尋 benchmark 的平均表現提升超過10個百分點,並在部分任務上可與領先的閉源商業模型相若 [3]。
但要睇定啲
暫時較穩陣的講法是:OpenSearch-VL 是一個有野心的開源多模態搜尋代理框架,方向上明顯想對標 OpenAI、Google 等閉源系統;但「已經追上」或「全面超越」仍未有足夠獨立證據支持。
目前公開資料主要來自 arXiv 論文和發布初期報道,所以相關 benchmark 成績應視為初步結果,仍有待第三方重現和測試 [1][
2][
3]。





