Tencent ने OpenSearch-VL नाम का open-source framework जारी किया है। इसे ऐसे multimodal AI search agents बनाने की “open recipe” के रूप में पेश किया गया है, जो सिर्फ तस्वीर देखकर जवाब नहीं देते, बल्कि web search, OCR, reverse image search और image-processing tools की मदद से कई चरणों में evidence जुटाकर reasoning कर सकते हैं [1][
2][
3].
OpenSearch-VL क्या है?
OpenSearch-VL को arXiv पर “An Open Recipe for Frontier Multimodal Search Agents” शीर्षक से 6 मई 2026 को submitted paper में पेश किया गया [2]. काम Tencent Hunyuan से आया है और शुरुआती reporting व paper listing के अनुसार इसमें UCLA और The Chinese University of Hong Kong जैसे collaborators भी शामिल हैं [
1][
3].
सरल भाषा में कहें तो यह कोई साधारण chatbot या सिर्फ image-captioning model नहीं है। इसका लक्ष्य ऐसा agent बनाना है जो किसी visual question को हल करने के लिए खुद tools चुन सके—जैसे तस्वीर में लिखा text पढ़ने के लिए OCR, source खोजने के लिए reverse image search, या image को crop, sharpen, super-resolution और perspective correction के जरिए साफ करना [3].
इसमें नया क्या है?
कई multimodal models तस्वीर को “समझने” की कोशिश करते हैं, लेकिन OpenSearch-VL को “active evidence seeking” के लिए design किया गया है। यानी model जवाब देने से पहले बाहरी sources और tools से अतिरिक्त जानकारी जुटा सकता है [3].
इस framework में training data और method पर भी जोर है। रिपोर्ट के अनुसार इसमें supervised fine-tuning और reinforcement-learning data शामिल हैं: SearchVL-SFT में 36,000 trajectories और SearchVL-RL में 8,000 trajectories बताए गए हैं [3]. यहां trajectory का मतलब task solve करते समय model के tool-use और reasoning steps की पूरी श्रृंखला से है। Tencent ने Multi-round Fault-Aware GRPO नाम की training method भी बताई है, जिसका उद्देश्य partially failed tool-use trajectories से भी सीखना है [
3].
OpenAI और Google से तुलना कैसे है?
मुख्य अंतर openness का है। OpenAI और Google के comparable multimodal search या research agents बड़े पैमाने पर proprietary systems हैं—यानी उनके training data, code और model weights पर बाहरी researchers की पूरी पहुंच नहीं होती। OpenSearch-VL को इसके उलट training data, code और weights जारी करने वाली open approach के रूप में रखा गया है, ताकि researchers system को reproduce और improve कर सकें [3].
| पहलू | OpenSearch-VL | OpenAI/Google जैसे proprietary systems |
|---|---|---|
| Access | Open-source recipe/framework; data, code और weights release करने की दिशा में positioned [ | आम तौर पर closed/proprietary systems [ |
| Tool use | Web search, OCR, reverse image search, cropping, sharpening, super-resolution, perspective correction [ | Similar multimodal search/research capabilities हो सकती हैं, लेकिन internal methods अक्सर public नहीं होते |
| Reported performance | Tencent के tests में सात multimodal deep-search benchmarks पर औसतन 10 percentage points से ज्यादा सुधार; कुछ tasks में leading closed-source commercial models के comparable बताया गया [ | Strong commercial systems, लेकिन पूरा evaluation setup हमेशा खुला नहीं होता |
बड़ा दावा, लेकिन सावधानी जरूरी
Tencent की reported evaluation के अनुसार OpenSearch-VL ने multimodal deep-search benchmarks पर मजबूत प्रदर्शन दिखाया और कुछ tasks में top closed-source commercial models के बराबर बताया गया [3]. लेकिन इस समय उपलब्ध public evidence मुख्यतः Tencent के paper, arXiv listing और शुरुआती coverage पर आधारित है [
1][
2][
3]. इसलिए OpenAI या Google जैसे systems को “match” करने का दावा अभी preliminary माना जाना चाहिए, जब तक independent evaluators इसे अलग-अलग benchmarks और real-world tasks पर verify न कर लें।
फिलहाल सबसे अहम बात यह है: OpenSearch-VL multimodal AI search agents को बंद labs से निकालकर open research community के लिए ज्यादा reproducible बनाने की कोशिश है। अगर इसके code, data और weights वादे के मुताबिक उपयोगी रूप में उपलब्ध होते हैं, तो यह researchers और developers के लिए multimodal search agents बनाने का एक महत्वपूर्ण आधार बन सकता है [3].





