OpenSearch-VL es el nuevo marco de código abierto que Tencent ha presentado para construir agentes de búsqueda multimodal: sistemas que no solo interpretan imágenes, sino que también pueden buscar pistas en la web, leer texto dentro de imágenes mediante OCR, hacer búsqueda inversa y aplicar herramientas de procesamiento visual antes de responder [1][
2][
3]. La idea de fondo es pasar de un modelo que “mira y contesta” a un agente que recopila evidencia y razona en varios pasos [
3].
Qué es OpenSearch-VL
El trabajo se describe como “An Open Recipe for Frontier Multimodal Search Agents” y fue enviado a arXiv el 6 de mayo de 2026 [2]. En términos prácticos, esa “receta” combina datos, entrenamiento y uso de herramientas para que otros equipos puedan reproducir o mejorar agentes de búsqueda multimodal.
El proyecto procede de Tencent Hunyuan y cuenta con colaboradores académicos, entre ellos UCLA —la Universidad de California en Los Ángeles— y la Universidad China de Hong Kong, según el listado del artículo y la cobertura inicial [1][
3].
Qué lo diferencia de un modelo visual convencional
Un modelo clásico de preguntas y respuestas sobre imágenes suele recibir una imagen y una pregunta, y produce una respuesta. OpenSearch-VL apunta a algo más activo: elegir herramientas externas, reunir información y corregir el rumbo si parte del proceso falla [3].
Entre las herramientas mencionadas están la búsqueda web, la búsqueda inversa de imágenes, el OCR —reconocimiento óptico de caracteres—, el recorte de imágenes, el aumento de nitidez, la superresolución y la corrección de perspectiva [3]. Ese enfoque busca que el agente pueda trabajar con evidencias visuales incompletas, borrosas o que requieren contraste con información externa.
Cómo se entrenó
Según la información publicada, el proyecto incluye datos para ajuste supervisado y aprendizaje por refuerzo: SearchVL-SFT con 36.000 trayectorias y SearchVL-RL con 8.000 trayectorias [3]. También introduce un método llamado “Multi-round Fault-Aware GRPO”, pensado para aprender de trayectorias de uso de herramientas que pueden fallar parcialmente durante varias rondas [
3].
Este punto es importante porque, en agentes de búsqueda, no basta con que el modelo “sepa” mirar una imagen: debe decidir cuándo buscar, qué herramienta usar, cómo interpretar el resultado y cuándo seguir investigando.
Comparación con OpenAI y Google
La diferencia principal frente a sistemas comparables de OpenAI y Google está en la apertura. Mientras los agentes multimodales de búsqueda o investigación de esas compañías suelen ser propietarios, OpenSearch-VL se presenta como una alternativa abierta, con la intención de publicar datos de entrenamiento, código y pesos del modelo para facilitar la reproducción y la mejora por parte de la comunidad investigadora [3].
En rendimiento, Tencent afirma que OpenSearch-VL mejora la media en más de 10 puntos porcentuales en siete benchmarks de búsqueda multimodal profunda y que alcanza resultados comparables a modelos comerciales cerrados líderes en algunas tareas [3]. Eso lo coloca como una propuesta relevante en la carrera por agentes multimodales más capaces, pero no equivale todavía a una prueba definitiva de superioridad general frente a OpenAI o Google.
La cautela necesaria
Por ahora, la evidencia pública citada procede sobre todo del artículo en arXiv y de cobertura inicial del lanzamiento [1][
2][
3]. Hasta que haya evaluaciones independientes más amplias, conviene leer las comparaciones con modelos propietarios como una señal prometedora, no como un veredicto cerrado.
En resumen: Tencent ha lanzado OpenSearch-VL como una vía abierta para construir agentes de búsqueda multimodal con herramientas externas. Su atractivo está en combinar visión, búsqueda y razonamiento paso a paso; su gran prueba pendiente será demostrar, fuera de los benchmarks reportados por sus autores, hasta qué punto puede igualar a los sistemas cerrados más avanzados.





