OpenSearch-VL을 볼 때 핵심 질문은 ‘또 하나의 이미지 챗봇인가’가 아니다. 텐센트가 내놓은 것은 이미지 한 장을 보고 설명하는 모델보다, 부족한 증거를 찾아내고 도구를 호출해 여러 단계로 추론하는 멀티모달 검색 에이전트를 만들기 위한 공개 훈련 레시피에 가깝다. arXiv에는 이 논문이 2026년 5월 6일 제출된 것으로 올라와 있으며 [18], 출시 보도는 텐센트 혼위안(Tencent Hunyuan)이 UCLA, 홍콩중문대 등과 협력했다고 전했다 [
21].
텐센트가 공개한 것
OpenSearch-VL은 일반 소비자가 바로 대화창에서 쓰는 단일 챗봇이라기보다, 멀티모달 검색 에이전트를 훈련하기 위한 프레임워크다. 논문 제목도 그 성격을 분명히 한다. 공식 제목은 OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents로, 최전선 수준의 멀티모달 검색 에이전트를 더 재현 가능하게 만들겠다는 취지를 담고 있다 [17].
중국권 출시 보도는 이를 강화학습(RL)을 활용한 오픈소스 멀티모달 훈련 방안으로 소개했다 [21]. 여기서 멀티모달은 텍스트만이 아니라 이미지 같은 시각 정보를 함께 다루는 AI를 뜻한다. 중요한 점은 OpenSearch-VL이 ‘이미지를 이해하는 모델’에서 한 걸음 더 나아가 ‘필요한 증거를 찾아오는 에이전트’를 목표로 한다는 점이다.
왜 ‘검색 에이전트’인가
기존 멀티모달 대형언어모델(MLLM)은 업로드된 이미지를 보고 설명하거나 질문에 답하는 데 초점이 맞춰진 경우가 많았다. 반면 초기 보도는 AI 경쟁의 중요한 축이 모델을 ‘수동적으로 이미지를 이해하는’ 단계에서 ‘능동적으로 증거를 찾고 추론하는’ 단계로 옮겨가는 것이라고 설명했다 [1].
OpenSearch-VL식 에이전트는 바로 이 지점을 겨냥한다. 논문은 에이전트가 웹 검색, 역이미지 검색, OCR(이미지 속 문자 인식), 크롭, 선명화, 초해상도, 원근 보정 같은 도구를 사용할 수 있다고 설명한다 [17]. 예를 들어 이미지가 흐리거나, 글자가 작거나, 원본 출처를 확인해야 하는 상황이라면 답을 바로 내놓기보다 추가 도구를 호출해 더 나은 근거를 확보하는 식이다.
이 도구 호출 루프가 OpenSearch-VL을 단순한 비전-언어 모델과 구분한다. 에이전트는 시각 정보를 살펴보고, 어떤 증거가 부족한지 판단하고, 검색 또는 이미지 처리 도구를 적용한 뒤, 그 결과를 여러 추론 단계에 걸쳐 결합하도록 설계돼 있다 [17].
훈련 레시피: 데이터와 강화학습
OpenSearch-VL의 또 다른 핵심은 훈련 데이터와 절차다. 논문은 SearchVL-SFT라는 감독 미세조정용 궤적 3만 6,000개와 SearchVL-RL이라는 강화학습용 궤적 8,000개를 보고한다 [17]. 여기서 ‘궤적’은 에이전트가 어떤 도구를 어떤 순서로 호출하고, 중간 결과를 어떻게 활용해 답에 도달했는지를 담은 학습 사례로 이해하면 된다.
또 논문은 Multi-round Fault-Aware GRPO라는 훈련 방법을 제시한다. 이는 여러 차례 도구를 쓰는 과정에서 중간 행동이 실패하거나 부분적으로만 도움이 되는 경우까지 학습에 반영하려는 방식이다 [17]. 검색 에이전트가 실제로 유용하려면 항상 한 번에 정답 경로를 찾는다는 가정보다, 실패한 검색·부정확한 OCR·도움이 덜 되는 이미지 보정 같은 상황을 견디는 능력이 중요하기 때문이다.
출시 보도는 고품질 훈련 데이터, 자동화된 궤적 합성, 세부적인 훈련 레시피의 부족이 최상위 멀티모달 검색 에이전트를 재현하기 어렵게 만든 병목이었다고 짚었다 [1]. OpenSearch-VL은 궤적 데이터, 감독 미세조정, 강화학습, 도구 오케스트레이션을 함께 제시하면서 이 병목을 직접 겨냥한다 [
17].
성능 주장: 가능성은 크지만, 아직은 자체 보고 단계
논문은 OpenSearch-VL이 7개 멀티모달 딥서치 벤치마크에서 평균 10%포인트 이상 성능을 끌어올렸고, 일부 과제에서는 선도적인 폐쇄형 상용 모델과 비슷한 수준을 보였다고 보고한다 [17]. 이는 눈에 띄는 주장이다.
다만 신중하게 읽어야 한다. 현재 공개 자료에서 확인되는 것은 저자들이 보고한 벤치마크 결과이지, 특정 OpenAI 또는 Google 제품과 독립 기관이 일대일로 검증한 결과는 아니다 [1][
17]. 실제 서비스 수준의 우위를 말하려면 정확도뿐 아니라 지연 시간, 안정성, 안전장치, 도구 실패 복구 능력 같은 요소도 함께 검증돼야 한다.
OpenAI·Google식 폐쇄형 시스템과 비교하면
가장 선명한 차이는 ‘공개성’이다. OpenSearch-VL은 연구자가 들여다보고, 재현하고, 바꿔볼 수 있는 공개 레시피로 제시된다 [17]. 반면 논문에서 비교 대상으로 언급되는 선도적인 폐쇄형 상용 모델들은 성능 비교의 기준점일 수는 있어도, 내부 훈련 스택 자체를 같은 방식으로 재현할 수 있는 대상은 아니다 [
17].
| 비교 질문 | OpenSearch-VL에서 확인되는 점 | 폐쇄형 상용 시스템과 비교할 때 남는 의문 |
|---|---|---|
| 훈련 레시피를 들여다볼 수 있나? | ‘오픈 레시피’로 제시돼 연구자가 훈련 접근법을 검토하고 응용할 수 있도록 하는 데 초점을 둔다 [ | OpenAI·Google 등 폐쇄형 시스템의 내부 훈련 절차와 직접 대조할 수 있는 동일 수준의 공개 자료는 제공되지 않는다. |
| 외부 증거를 활용하나? | 웹 검색, 역이미지 검색, OCR, 이미지 처리 도구를 사용하는 구조가 설명돼 있다 [ | 폐쇄형 제품들이 실제로 어떤 조건에서 어떤 도구를 라우팅하는지는 OpenSearch-VL 공개 자료만으로 확인하기 어렵다. |
| 성능이 더 좋은가? | 저자들은 7개 벤치마크 평균 10%포인트 이상 개선과 일부 과제에서 폐쇄형 상용 모델과 비슷한 결과를 보고했다 [ | 출시 자료에는 독립적인 헤드투헤드 검증이 포함돼 있지 않다 [ |
앞으로 봐야 할 것
OpenSearch-VL의 가치는 단순히 ‘텐센트가 OpenAI나 Google을 따라잡았나’라는 구도로만 보기 어렵다. 더 중요한 관전 포인트는 멀티모달 검색 에이전트를 어떻게 훈련하고, 어디서 실패하며, 도구 사용을 어떻게 개선할 수 있는지 공개적으로 연구할 수 있는 발판을 마련했다는 데 있다.
다음 검증은 실전적이어야 한다. 외부 연구자들이 논문 속 벤치마크 결과를 재현할 수 있는지, 논문 평가 범위를 넘어 다른 도메인에서도 같은 접근법이 통하는지, 긴 검색 과정에서 도구 오류를 얼마나 안정적으로 처리하는지가 핵심이다. 그 전까지 OpenSearch-VL은 OpenAI·Google식 폐쇄형 멀티모달 검색 시스템을 곧바로 대체할 결론이라기보다, 공개성과 재현 가능성을 앞세운 진지한 오픈소스 도전자로 보는 편이 정확하다.
요약하면, 텐센트의 새 프레임워크는 OpenSearch-VL이다. 가장 큰 기여는 멀티모달 AI 검색 에이전트를 만들기 위한 기술적으로 구체적인 공개 경로를 제시했다는 점이고, 가장 큰 미해결 질문은 출시 초기 벤치마크 주장이 독립 평가에서도 확인될지 여부다 [17][
18].





