텐센트 OpenSearch-VL: OpenAI·Google식 폐쇄형 시스템과 다른 점

OpenSearch VL은 텐센트 혼위안과 학계 공동 연구진이 공개한 멀티모달 검색 에이전트 훈련 프레임워크로, arXiv에는 2026년 5월 6일 제출로 기록돼 있다 [18][21]. 웹 검색, 역이미지 검색, OCR, 크롭·선명화·초해상도·원근 보정 등 도구 호출을 전제로 여러 단계의 증거 수집과 추론을 훈련한다 [17].

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

3690

# Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide# Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. #### Minghan Xu. Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. The 2026 landscape offers mature, production-ready options across different architectural approaches, each optimized for specific use cases and team reOpen-Source AI Agent Frameworks 2026: Complete Developer ...

OpenSearch-VL을 볼 때 핵심 질문은 ‘또 하나의 이미지 챗봇인가’가 아니다. 텐센트가 내놓은 것은 이미지 한 장을 보고 설명하는 모델보다, 부족한 증거를 찾아내고 도구를 호출해 여러 단계로 추론하는 멀티모달 검색 에이전트를 만들기 위한 공개 훈련 레시피에 가깝다. arXiv에는 이 논문이 2026년 5월 6일 제출된 것으로 올라와 있으며 ^[18], 출시 보도는 텐센트 혼위안(Tencent Hunyuan)이 UCLA, 홍콩중문대 등과 협력했다고 전했다 ^[21].

텐센트가 공개한 것

OpenSearch-VL은 일반 소비자가 바로 대화창에서 쓰는 단일 챗봇이라기보다, 멀티모달 검색 에이전트를 훈련하기 위한 프레임워크다. 논문 제목도 그 성격을 분명히 한다. 공식 제목은 OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents로, 최전선 수준의 멀티모달 검색 에이전트를 더 재현 가능하게 만들겠다는 취지를 담고 있다 ^[17].

중국권 출시 보도는 이를 강화학습(RL)을 활용한 오픈소스 멀티모달 훈련 방안으로 소개했다 ^[21]. 여기서 멀티모달은 텍스트만이 아니라 이미지 같은 시각 정보를 함께 다루는 AI를 뜻한다. 중요한 점은 OpenSearch-VL이 ‘이미지를 이해하는 모델’에서 한 걸음 더 나아가 ‘필요한 증거를 찾아오는 에이전트’를 목표로 한다는 점이다.

왜 ‘검색 에이전트’인가

기존 멀티모달 대형언어모델(MLLM)은 업로드된 이미지를 보고 설명하거나 질문에 답하는 데 초점이 맞춰진 경우가 많았다. 반면 초기 보도는 AI 경쟁의 중요한 축이 모델을 ‘수동적으로 이미지를 이해하는’ 단계에서 ‘능동적으로 증거를 찾고 추론하는’ 단계로 옮겨가는 것이라고 설명했다 ^[1].

OpenSearch-VL식 에이전트는 바로 이 지점을 겨냥한다. 논문은 에이전트가 웹 검색, 역이미지 검색, OCR(이미지 속 문자 인식), 크롭, 선명화, 초해상도, 원근 보정 같은 도구를 사용할 수 있다고 설명한다 ^[17]. 예를 들어 이미지가 흐리거나, 글자가 작거나, 원본 출처를 확인해야 하는 상황이라면 답을 바로 내놓기보다 추가 도구를 호출해 더 나은 근거를 확보하는 식이다.

이 도구 호출 루프가 OpenSearch-VL을 단순한 비전-언어 모델과 구분한다. 에이전트는 시각 정보를 살펴보고, 어떤 증거가 부족한지 판단하고, 검색 또는 이미지 처리 도구를 적용한 뒤, 그 결과를 여러 추론 단계에 걸쳐 결합하도록 설계돼 있다 ^[17].

훈련 레시피: 데이터와 강화학습

OpenSearch-VL의 또 다른 핵심은 훈련 데이터와 절차다. 논문은 SearchVL-SFT라는 감독 미세조정용 궤적 3만 6,000개와 SearchVL-RL이라는 강화학습용 궤적 8,000개를 보고한다 ^[17]. 여기서 ‘궤적’은 에이전트가 어떤 도구를 어떤 순서로 호출하고, 중간 결과를 어떻게 활용해 답에 도달했는지를 담은 학습 사례로 이해하면 된다.

또 논문은 Multi-round Fault-Aware GRPO라는 훈련 방법을 제시한다. 이는 여러 차례 도구를 쓰는 과정에서 중간 행동이 실패하거나 부분적으로만 도움이 되는 경우까지 학습에 반영하려는 방식이다 ^[17]. 검색 에이전트가 실제로 유용하려면 항상 한 번에 정답 경로를 찾는다는 가정보다, 실패한 검색·부정확한 OCR·도움이 덜 되는 이미지 보정 같은 상황을 견디는 능력이 중요하기 때문이다.

출시 보도는 고품질 훈련 데이터, 자동화된 궤적 합성, 세부적인 훈련 레시피의 부족이 최상위 멀티모달 검색 에이전트를 재현하기 어렵게 만든 병목이었다고 짚었다 ^[1]. OpenSearch-VL은 궤적 데이터, 감독 미세조정, 강화학습, 도구 오케스트레이션을 함께 제시하면서 이 병목을 직접 겨냥한다 ^[17].

성능 주장: 가능성은 크지만, 아직은 자체 보고 단계

논문은 OpenSearch-VL이 7개 멀티모달 딥서치 벤치마크에서 평균 10%포인트 이상 성능을 끌어올렸고, 일부 과제에서는 선도적인 폐쇄형 상용 모델과 비슷한 수준을 보였다고 보고한다 ^[17]. 이는 눈에 띄는 주장이다.

다만 신중하게 읽어야 한다. 현재 공개 자료에서 확인되는 것은 저자들이 보고한 벤치마크 결과이지, 특정 OpenAI 또는 Google 제품과 독립 기관이 일대일로 검증한 결과는 아니다 ^[1]^[17]. 실제 서비스 수준의 우위를 말하려면 정확도뿐 아니라 지연 시간, 안정성, 안전장치, 도구 실패 복구 능력 같은 요소도 함께 검증돼야 한다.

OpenAI·Google식 폐쇄형 시스템과 비교하면

가장 선명한 차이는 ‘공개성’이다. OpenSearch-VL은 연구자가 들여다보고, 재현하고, 바꿔볼 수 있는 공개 레시피로 제시된다 ^[17]. 반면 논문에서 비교 대상으로 언급되는 선도적인 폐쇄형 상용 모델들은 성능 비교의 기준점일 수는 있어도, 내부 훈련 스택 자체를 같은 방식으로 재현할 수 있는 대상은 아니다 ^[17].

비교 질문	OpenSearch-VL에서 확인되는 점	폐쇄형 상용 시스템과 비교할 때 남는 의문
훈련 레시피를 들여다볼 수 있나?	‘오픈 레시피’로 제시돼 연구자가 훈련 접근법을 검토하고 응용할 수 있도록 하는 데 초점을 둔다 ^[17].	OpenAI·Google 등 폐쇄형 시스템의 내부 훈련 절차와 직접 대조할 수 있는 동일 수준의 공개 자료는 제공되지 않는다.
외부 증거를 활용하나?	웹 검색, 역이미지 검색, OCR, 이미지 처리 도구를 사용하는 구조가 설명돼 있다 ^[17].	폐쇄형 제품들이 실제로 어떤 조건에서 어떤 도구를 라우팅하는지는 OpenSearch-VL 공개 자료만으로 확인하기 어렵다.
성능이 더 좋은가?	저자들은 7개 벤치마크 평균 10%포인트 이상 개선과 일부 과제에서 폐쇄형 상용 모델과 비슷한 결과를 보고했다 ^[17].	출시 자료에는 독립적인 헤드투헤드 검증이 포함돼 있지 않다 ^[1]^[17].

앞으로 봐야 할 것

OpenSearch-VL의 가치는 단순히 ‘텐센트가 OpenAI나 Google을 따라잡았나’라는 구도로만 보기 어렵다. 더 중요한 관전 포인트는 멀티모달 검색 에이전트를 어떻게 훈련하고, 어디서 실패하며, 도구 사용을 어떻게 개선할 수 있는지 공개적으로 연구할 수 있는 발판을 마련했다는 데 있다.

다음 검증은 실전적이어야 한다. 외부 연구자들이 논문 속 벤치마크 결과를 재현할 수 있는지, 논문 평가 범위를 넘어 다른 도메인에서도 같은 접근법이 통하는지, 긴 검색 과정에서 도구 오류를 얼마나 안정적으로 처리하는지가 핵심이다. 그 전까지 OpenSearch-VL은 OpenAI·Google식 폐쇄형 멀티모달 검색 시스템을 곧바로 대체할 결론이라기보다, 공개성과 재현 가능성을 앞세운 진지한 오픈소스 도전자로 보는 편이 정확하다.

요약하면, 텐센트의 새 프레임워크는 OpenSearch-VL이다. 가장 큰 기여는 멀티모달 AI 검색 에이전트를 만들기 위한 기술적으로 구체적인 공개 경로를 제시했다는 점이고, 가장 큰 미해결 질문은 출시 초기 벤치마크 주장이 독립 평가에서도 확인될지 여부다 ^[17]^[18].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

OpenSearch VL은 텐센트 혼위안과 학계 공동 연구진이 공개한 멀티모달 검색 에이전트 훈련 프레임워크로, arXiv에는 2026년 5월 6일 제출로 기록돼 있다 [18][21].
웹 검색, 역이미지 검색, OCR, 크롭·선명화·초해상도·원근 보정 등 도구 호출을 전제로 여러 단계의 증거 수집과 추론을 훈련한다 [17].
논문은 7개 벤치마크 평균 10%포인트 이상 개선을 보고하지만, OpenAI·Google 등 폐쇄형 시스템과의 독립 검증된 제품 수준 우위는 아직 확인되지 않았다 [1][17].

시각적 지원

Abstract digital illustration of open-source AI agent frameworks with connected components — Open-Source AI Agent Frameworks 2026: Complete Developer Comparison GuideA generic AI-agent framework illustration; OpenSearch-VL applies the open-source approach to multimodal search agents.Open-Source AI Agent Frameworks 2026: Complete Developer ...

Pipecat - Open-source framework for voice and multimodal conversational AIPipecat - Open-source framework for voice and multimodal conversational AI. GitHub stars · Vocode - Open-source library for building voice-based LLM agents.GitHub - Zijian-Ni/awesome-ai-agents-2026: 🤖 A curated list of AI Agent frameworks, tools, platforms, and resources for 2026 — the year agents went mainstream · GitHub

사람들은 또한 묻습니다.

"텐센트 OpenSearch-VL: OpenAI·Google식 폐쇄형 시스템과 다른 점"에 대한 짧은 대답은 무엇입니까?

OpenSearch VL은 텐센트 혼위안과 학계 공동 연구진이 공개한 멀티모달 검색 에이전트 훈련 프레임워크로, arXiv에는 2026년 5월 6일 제출로 기록돼 있다 [18][21].

먼저 검증할 핵심 포인트는 무엇인가요?

실무에서는 다음으로 무엇을 해야 합니까?

논문은 7개 벤치마크 평균 10%포인트 이상 개선을 보고하지만, OpenAI·Google 등 폐쇄형 시스템과의 독립 검증된 제품 수준 우위는 아직 확인되지 않았다 [1][17].

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "애플 Swift Student Challenge 2026, AI로 접근성을 풀어낸 앱 4가지"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"엔비디아의 IREN 21억 달러 베팅, AI 데이터센터가 ‘전력 우선’ 메가프로젝트로 간다는 신호"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

What are some AI powered accessibility apps created by Apple’s 2026 Swift Student Challenge winners, and how do they solve real world proble

애플 Swift Student Challenge 2026, AI로 접근성을 풀어낸 앱 4가지

NVIDIA Just Invested $2 Billion to Build the First AI Factories DailyNoons 106 subscribers 4 likes 414 views 1 Apr 2026 NVIDIA just made a **massive move in the AI infrastructure r

엔비디아의 IREN 21억 달러 베팅, AI 데이터센터가 ‘전력 우선’ 메가프로젝트로 간다는 신호

엔비디아-IREN 딜이 말하는 AI 데이터센터의 다음 단계

JPMorgan forecasts Strategy's Bitcoin acquisitions could hit $30 billion by 2026, with 145834 BTC bought this year alone, valued at $11

JPMorgan의 ‘Strategy 300억 달러 비트코인 매수’ 전망, 핵심은 자금 조달

JPMorgan의 Strategy 300억 달러 비트코인 전망, 어떻게 가능할까

# Vietnam eyes MSCI watchlist in June 2026. ## With sweeping capital market reforms underway, Vietnam is entering 2026 with its strongest structural footing yet for a potential MSC

FTSE 승격 받은 베트남 증시, MSCI 워치리스트도 가까워졌나

베트남의 FTSE 신흥시장 승격, 2026년 MSCI 워치리스트 가능성을 키웠다

출처

[1] Tencent Releases OpenSearch-VL: A Comprehensive Solution for ...news.aibase.com
Tencent Releases OpenSearch-VL: A Comprehensive Solution for Open-Source Multimodal Deep Search Agent Published in Latest AI NewsTime :May 7, 2026Read :6minute With the rapid development of multimodal large language models (MLLMs), how to enable models to e...
[17] OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agentsarxiv.org
Multimodal Search Agents Shawn Chen1,2, Kaituo Feng3, Hangting Chen1, Wenxuan Huang3, Dasen Dai3, Quanxin Shou2,4 Yunlong Lin3, Xiangyu Yue3, Shenghua Gao4, Tianyu Pang1,†
[18] An Open Recipe for Frontier Multimodal Search Agents - arXivarxiv.org
Computer Science Computer Vision and Pattern Recognition arXiv:2605.05185 (cs) [Submitted on 6 May 2026]
[21] 腾讯开源OpenSearch-VL，突破多模态搜索AI智能体训练瓶颈163.com
IT之家 5 月 7 日消息，腾讯混元（Tencent Hunyuan）携手加州大学洛杉矶分校（UCLA）、香港中文大学等学府，联合发布 OpenSearch-VL 开源多模态训练方案，通过强化学习（RL）技术，打造具备前沿能力的深度搜索智能体。

텐센트 OpenSearch-VL: OpenAI·Google식 폐쇄형 시스템과 다른 점

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

3690

텐센트가 공개한 것

왜 ‘검색 에이전트’인가

훈련 레시피: 데이터와 강화학습

성능 주장: 가능성은 크지만, 아직은 자체 보고 단계

OpenAI·Google식 폐쇄형 시스템과 비교하면

비교 질문	OpenSearch-VL에서 확인되는 점	폐쇄형 상용 시스템과 비교할 때 남는 의문
훈련 레시피를 들여다볼 수 있나?	‘오픈 레시피’로 제시돼 연구자가 훈련 접근법을 검토하고 응용할 수 있도록 하는 데 초점을 둔다 ^[17].	OpenAI·Google 등 폐쇄형 시스템의 내부 훈련 절차와 직접 대조할 수 있는 동일 수준의 공개 자료는 제공되지 않는다.
외부 증거를 활용하나?	웹 검색, 역이미지 검색, OCR, 이미지 처리 도구를 사용하는 구조가 설명돼 있다 ^[17].	폐쇄형 제품들이 실제로 어떤 조건에서 어떤 도구를 라우팅하는지는 OpenSearch-VL 공개 자료만으로 확인하기 어렵다.
성능이 더 좋은가?	저자들은 7개 벤치마크 평균 10%포인트 이상 개선과 일부 과제에서 폐쇄형 상용 모델과 비슷한 결과를 보고했다 ^[17].	출시 자료에는 독립적인 헤드투헤드 검증이 포함돼 있지 않다 ^[1]^[17].

앞으로 봐야 할 것

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

OpenSearch VL은 텐센트 혼위안과 학계 공동 연구진이 공개한 멀티모달 검색 에이전트 훈련 프레임워크로, arXiv에는 2026년 5월 6일 제출로 기록돼 있다 [18][21].
웹 검색, 역이미지 검색, OCR, 크롭·선명화·초해상도·원근 보정 등 도구 호출을 전제로 여러 단계의 증거 수집과 추론을 훈련한다 [17].
논문은 7개 벤치마크 평균 10%포인트 이상 개선을 보고하지만, OpenAI·Google 등 폐쇄형 시스템과의 독립 검증된 제품 수준 우위는 아직 확인되지 않았다 [1][17].

시각적 지원

사람들은 또한 묻습니다.

"텐센트 OpenSearch-VL: OpenAI·Google식 폐쇄형 시스템과 다른 점"에 대한 짧은 대답은 무엇입니까?

먼저 검증할 핵심 포인트는 무엇인가요?

실무에서는 다음으로 무엇을 해야 합니까?

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "애플 Swift Student Challenge 2026, AI로 접근성을 풀어낸 앱 4가지"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"엔비디아의 IREN 21억 달러 베팅, AI 데이터센터가 ‘전력 우선’ 메가프로젝트로 간다는 신호"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

출처

[1] Tencent Releases OpenSearch-VL: A Comprehensive Solution for ...news.aibase.com
Tencent Releases OpenSearch-VL: A Comprehensive Solution for Open-Source Multimodal Deep Search Agent Published in Latest AI NewsTime :May 7, 2026Read :6minute With the rapid development of multimodal large language models (MLLMs), how to enable models to e...
[17] OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agentsarxiv.org
Multimodal Search Agents Shawn Chen1,2, Kaituo Feng3, Hangting Chen1, Wenxuan Huang3, Dasen Dai3, Quanxin Shou2,4 Yunlong Lin3, Xiangyu Yue3, Shenghua Gao4, Tianyu Pang1,†
[18] An Open Recipe for Frontier Multimodal Search Agents - arXivarxiv.org
Computer Science Computer Vision and Pattern Recognition arXiv:2605.05185 (cs) [Submitted on 6 May 2026]
[21] 腾讯开源OpenSearch-VL，突破多模态搜索AI智能体训练瓶颈163.com
IT之家 5 月 7 日消息，腾讯混元（Tencent Hunyuan）携手加州大学洛杉矶分校（UCLA）、香港中文大学等学府，联合发布 OpenSearch-VL 开源多模态训练方案，通过强化学习（RL）技术，打造具备前沿能力的深度搜索智能体。

텐센트 OpenSearch-VL: OpenAI·Google식 폐쇄형 시스템과 다른 점

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

3690

텐센트가 공개한 것

왜 ‘검색 에이전트’인가

훈련 레시피: 데이터와 강화학습

성능 주장: 가능성은 크지만, 아직은 자체 보고 단계

OpenAI·Google식 폐쇄형 시스템과 비교하면

비교 질문	OpenSearch-VL에서 확인되는 점	폐쇄형 상용 시스템과 비교할 때 남는 의문
훈련 레시피를 들여다볼 수 있나?	‘오픈 레시피’로 제시돼 연구자가 훈련 접근법을 검토하고 응용할 수 있도록 하는 데 초점을 둔다 ^[17].	OpenAI·Google 등 폐쇄형 시스템의 내부 훈련 절차와 직접 대조할 수 있는 동일 수준의 공개 자료는 제공되지 않는다.
외부 증거를 활용하나?	웹 검색, 역이미지 검색, OCR, 이미지 처리 도구를 사용하는 구조가 설명돼 있다 ^[17].	폐쇄형 제품들이 실제로 어떤 조건에서 어떤 도구를 라우팅하는지는 OpenSearch-VL 공개 자료만으로 확인하기 어렵다.
성능이 더 좋은가?	저자들은 7개 벤치마크 평균 10%포인트 이상 개선과 일부 과제에서 폐쇄형 상용 모델과 비슷한 결과를 보고했다 ^[17].	출시 자료에는 독립적인 헤드투헤드 검증이 포함돼 있지 않다 ^[1]^[17].

앞으로 봐야 할 것

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

OpenSearch VL은 텐센트 혼위안과 학계 공동 연구진이 공개한 멀티모달 검색 에이전트 훈련 프레임워크로, arXiv에는 2026년 5월 6일 제출로 기록돼 있다 [18][21].
웹 검색, 역이미지 검색, OCR, 크롭·선명화·초해상도·원근 보정 등 도구 호출을 전제로 여러 단계의 증거 수집과 추론을 훈련한다 [17].
논문은 7개 벤치마크 평균 10%포인트 이상 개선을 보고하지만, OpenAI·Google 등 폐쇄형 시스템과의 독립 검증된 제품 수준 우위는 아직 확인되지 않았다 [1][17].

시각적 지원

사람들은 또한 묻습니다.

"텐센트 OpenSearch-VL: OpenAI·Google식 폐쇄형 시스템과 다른 점"에 대한 짧은 대답은 무엇입니까?

먼저 검증할 핵심 포인트는 무엇인가요?

실무에서는 다음으로 무엇을 해야 합니까?

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "애플 Swift Student Challenge 2026, AI로 접근성을 풀어낸 앱 4가지"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"엔비디아의 IREN 21억 달러 베팅, AI 데이터센터가 ‘전력 우선’ 메가프로젝트로 간다는 신호"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

출처

[1] Tencent Releases OpenSearch-VL: A Comprehensive Solution for ...news.aibase.com
Tencent Releases OpenSearch-VL: A Comprehensive Solution for Open-Source Multimodal Deep Search Agent Published in Latest AI NewsTime :May 7, 2026Read :6minute With the rapid development of multimodal large language models (MLLMs), how to enable models to e...
[17] OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agentsarxiv.org
Multimodal Search Agents Shawn Chen1,2, Kaituo Feng3, Hangting Chen1, Wenxuan Huang3, Dasen Dai3, Quanxin Shou2,4 Yunlong Lin3, Xiangyu Yue3, Shenghua Gao4, Tianyu Pang1,†
[18] An Open Recipe for Frontier Multimodal Search Agents - arXivarxiv.org
Computer Science Computer Vision and Pattern Recognition arXiv:2605.05185 (cs) [Submitted on 6 May 2026]
[21] 腾讯开源OpenSearch-VL，突破多模态搜索AI智能体训练瓶颈163.com
IT之家 5 月 7 日消息，腾讯混元（Tencent Hunyuan）携手加州大学洛杉矶分校（UCLA）、香港中文大学等学府，联合发布 OpenSearch-VL 开源多模态训练方案，通过强化学习（RL）技术，打造具备前沿能力的深度搜索智能体。