Tencentが発表した新しいフレームワークは OpenSearch-VL です。ポイントは、単に画像を説明するAIではないこと。写真やスクリーンショットを見て即答するだけでなく、「根拠が足りない」と判断したら検索、OCR、画像補正などのツールを使い、複数ステップで推論するエージェントを訓練するための枠組みです。
arXivでは、論文「OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents」が2026年5月6日に投稿されたと記録されています[18]。公開時の報道によると、Tencent Hunyuan(テンセント混元)はUCLAや香港中文大学などと共同でOpenSearch-VLを発表しました[
21]。
OpenSearch-VLは何を公開したのか
OpenSearch-VLは、一般向けの単体チャットボットというより、マルチモーダル検索エージェントを訓練するためのフレームワーク/レシピです。論文タイトルにもある通り、狙いは「最先端のマルチモーダル検索エージェントをどう作るか」を、より再現可能な形で示すことにあります[17]。
中国メディアの公開時報道も、OpenSearch-VLを強化学習(RL)を用いたオープンソースのマルチモーダル訓練方案として紹介しています[21]。
何が新しいのか:画像を“見る”だけでなく、根拠を探しに行く
従来の視覚言語モデルは、アップロードされた画像を見て説明したり質問に答えたりする使い方が中心でした。OpenSearch-VLが重視するのは、そこから一歩進んで、モデルが自分で「追加の証拠が必要だ」と判断し、外部ツールを使う流れです。
論文では、ツール利用の例として、ウェブ検索、逆画像検索、OCR、切り抜き、シャープ化、超解像、透視補正が挙げられています[17]。つまり、ぼやけた看板を拡大・補正してOCRにかける、画像の出所を逆画像検索で探す、といった一連の作業をエージェントの推論ループに組み込む発想です。
公開時の報道も、マルチモーダル大規模言語モデルが「受動的に画像を理解する」段階から、「能動的に証拠を探して推論する」段階へ移ることを、AI分野の競争点として位置づけています[1]。
訓練レシピ:36,000件のSFT軌跡と8,000件のRL軌跡
OpenSearch-VLは、モデル構造だけでなく、データと訓練手順のレシピとしても提示されています。論文は、教師ありファインチューニング用の SearchVL-SFT に36,000件の軌跡、強化学習用の SearchVL-RL に8,000件の軌跡を用意したと報告しています[17]。
ここでいう「軌跡」とは、エージェントがどの場面でどのツールを呼び出し、途中結果をどう扱い、最終回答にどうたどり着いたかという一連のプロセスを指します。検索エージェントにとっては、最終回答だけでなく、その途中で何を調べ、どこで失敗し、どう立て直したかが重要になります。
論文はさらに、Multi-round Fault-Aware GRPO という訓練手法を導入しています。これは、複数ラウンドのツール利用の中で、途中の行動が失敗したり、部分的にしか役立たなかったりするケースも含めて学習することを意図した方法です[17]。
この点は重要です。公開時の報道では、高品質な訓練データ、自動的な軌跡合成、詳細な訓練レシピの不足が、上位レベルのマルチモーダル検索エージェントを再現しにくくしてきたボトルネックとして説明されています[1]。OpenSearch-VLは、そのボトルネックに対して、データ、教師あり学習、強化学習、ツール連携をまとめて提示しようとしているわけです[
17]。
性能主張は有望。ただし「独立検証済み」とは別問題
論文は、7つのマルチモーダル深層検索ベンチマークで平均10ポイント超の改善を示し、一部タスクでは主要なクローズドソース商用モデルに匹敵すると報告しています[17]。
ただし、ここは慎重に読む必要があります。現時点で確認できる公開資料は、主に著者らの論文と公開時の報道です。特定のOpenAI製品やGoogle製品に対する、独立機関による同条件の再現評価が示されているわけではありません[1][
17]。
言い換えると、OpenSearch-VLはベンチマーク上では非公開商用システムに迫る可能性を示していますが、実運用での信頼性、応答速度、安全性対応、失敗からの復旧能力まで含めて、OpenAIやGoogleのクローズドな製品群と同等だと証明された段階ではありません。
OpenAI・Google系システムとの比較で見るべき点
最もはっきりした違いは、オープン性です。OpenSearch-VLは、研究者や開発者が訓練の考え方を調べ、再現し、改良できる「オープンなレシピ」として提示されています[17]。一方で、OpenAIやGoogleのような非公開商用システムについては、少なくとも今回のOpenSearch-VL関連資料の中で、内部の訓練スタックやツール制御の詳細が同じ粒度で示されているわけではありません。
| 観点 | OpenSearch-VLで示されたこと | OpenAI・Google系の非公開システムとの比較で未確認のこと |
|---|---|---|
| 訓練レシピは見えるか | 最先端マルチモーダル検索エージェント向けのオープンなレシピとして提示されている[ | OpenAIやGoogle側の内部訓練手順と、同じ粒度で比較できる資料は示されていない。 |
| 外部証拠を使うか | ウェブ検索、逆画像検索、OCR、画像処理ツールなどを使う設計が説明されている[ | 非公開製品が内部でどのようにツールを選択・制御しているかは、この資料からは分からない。 |
| 性能は上回るのか | 7つのベンチマークで平均10ポイント超の改善、一部タスクでクローズド商用モデルに匹敵すると著者らは報告している[ | 独立した第三者による、特定製品との同条件の直接比較は公開資料だけでは確認できない[ |
次に注目すべきこと
今後見るべきは、発表時のベンチマーク結果そのものよりも、外部研究者がどこまで再現できるかです。特に重要なのは、論文の評価セットを超えた領域で同じ訓練レシピが機能するか、長い検索タスクでツールの失敗をどれだけ安定して扱えるか、実サービスに近い条件で信頼性を保てるかでしょう。
現時点での結論は、OpenSearch-VLはOpenAIやGoogleの非公開マルチモーダル検索エージェントに対する、かなり本格的なオープンソース側の挑戦だということです。ただし、「置き換えられる」と言い切るにはまだ早く、最大の価値は、マルチモーダルAI検索エージェントの作り方を検証可能な形で示した点にあります[17][
18]。





