RespuestasPublicado8 may 2026Last edited 8 may 20263 fuentes

OpenSearch-VL: qué es el nuevo marco abierto de Tencent para buscar con imágenes, texto y herramientas

OpenSearch VL es un marco o “receta” de código abierto para construir agentes de búsqueda multimodal que razonan con imágenes, web y herramientas externas [1][2][3]. El proyecto procede de Tencent Hunyuan, con colaboradores como UCLA y la Universidad China de Hong Kong [1][3].

Buscar y verificar hechos con Studio Global AI Explora más de Descubrir

2210

# Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide# Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. #### Minghan Xu. Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. The 2026 landscape offers mature, production-ready options across different architectural approaches, each optimized for specific use cases and team reOpen-Source AI Agent Frameworks 2026: Complete Developer ...

OpenSearch-VL es el nuevo marco de código abierto que Tencent ha presentado para construir agentes de búsqueda multimodal: sistemas que no solo interpretan imágenes, sino que también pueden buscar pistas en la web, leer texto dentro de imágenes mediante OCR, hacer búsqueda inversa y aplicar herramientas de procesamiento visual antes de responder ^[1]^[2]^[3]. La idea de fondo es pasar de un modelo que “mira y contesta” a un agente que recopila evidencia y razona en varios pasos ^[3].

Qué es OpenSearch-VL

El trabajo se describe como “An Open Recipe for Frontier Multimodal Search Agents” y fue enviado a arXiv el 6 de mayo de 2026 ^[2]. En términos prácticos, esa “receta” combina datos, entrenamiento y uso de herramientas para que otros equipos puedan reproducir o mejorar agentes de búsqueda multimodal.

El proyecto procede de Tencent Hunyuan y cuenta con colaboradores académicos, entre ellos UCLA —la Universidad de California en Los Ángeles— y la Universidad China de Hong Kong, según el listado del artículo y la cobertura inicial ^[1]^[3].

Qué lo diferencia de un modelo visual convencional

Un modelo clásico de preguntas y respuestas sobre imágenes suele recibir una imagen y una pregunta, y produce una respuesta. OpenSearch-VL apunta a algo más activo: elegir herramientas externas, reunir información y corregir el rumbo si parte del proceso falla ^[3].

Entre las herramientas mencionadas están la búsqueda web, la búsqueda inversa de imágenes, el OCR —reconocimiento óptico de caracteres—, el recorte de imágenes, el aumento de nitidez, la superresolución y la corrección de perspectiva ^[3]. Ese enfoque busca que el agente pueda trabajar con evidencias visuales incompletas, borrosas o que requieren contraste con información externa.

Cómo se entrenó

Según la información publicada, el proyecto incluye datos para ajuste supervisado y aprendizaje por refuerzo: SearchVL-SFT con 36.000 trayectorias y SearchVL-RL con 8.000 trayectorias ^[3]. También introduce un método llamado “Multi-round Fault-Aware GRPO”, pensado para aprender de trayectorias de uso de herramientas que pueden fallar parcialmente durante varias rondas ^[3].

Este punto es importante porque, en agentes de búsqueda, no basta con que el modelo “sepa” mirar una imagen: debe decidir cuándo buscar, qué herramienta usar, cómo interpretar el resultado y cuándo seguir investigando.

Comparación con OpenAI y Google

La diferencia principal frente a sistemas comparables de OpenAI y Google está en la apertura. Mientras los agentes multimodales de búsqueda o investigación de esas compañías suelen ser propietarios, OpenSearch-VL se presenta como una alternativa abierta, con la intención de publicar datos de entrenamiento, código y pesos del modelo para facilitar la reproducción y la mejora por parte de la comunidad investigadora ^[3].

En rendimiento, Tencent afirma que OpenSearch-VL mejora la media en más de 10 puntos porcentuales en siete benchmarks de búsqueda multimodal profunda y que alcanza resultados comparables a modelos comerciales cerrados líderes en algunas tareas ^[3]. Eso lo coloca como una propuesta relevante en la carrera por agentes multimodales más capaces, pero no equivale todavía a una prueba definitiva de superioridad general frente a OpenAI o Google.

La cautela necesaria

Por ahora, la evidencia pública citada procede sobre todo del artículo en arXiv y de cobertura inicial del lanzamiento ^[1]^[2]^[3]. Hasta que haya evaluaciones independientes más amplias, conviene leer las comparaciones con modelos propietarios como una señal prometedora, no como un veredicto cerrado.

En resumen: Tencent ha lanzado OpenSearch-VL como una vía abierta para construir agentes de búsqueda multimodal con herramientas externas. Su atractivo está en combinar visión, búsqueda y razonamiento paso a paso; su gran prueba pendiente será demostrar, fuera de los benchmarks reportados por sus autores, hasta qué punto puede igualar a los sistemas cerrados más avanzados.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Buscar y verificar hechos con Studio Global AI

Conclusiones clave

OpenSearch VL es un marco o “receta” de código abierto para construir agentes de búsqueda multimodal que razonan con imágenes, web y herramientas externas [1][2][3].
El proyecto procede de Tencent Hunyuan, con colaboradores como UCLA y la Universidad China de Hong Kong [1][3].
No se limita a responder preguntas sobre una imagen: puede activar búsqueda web, OCR, búsqueda inversa de imágenes y herramientas de mejora o corrección visual [3].
Según Tencent, sus pruebas muestran una mejora media de más de 10 puntos porcentuales en siete benchmarks de búsqueda multimodal profunda y resultados comparables a modelos comerciales cerrados en algunas tareas [3].

Imágenes de apoyo

Abstract digital illustration of open-source AI agent frameworks with connected components — Open-Source AI Agent Frameworks 2026: Complete Developer Comparison GuideA generic AI-agent framework illustration; OpenSearch-VL applies the open-source approach to multimodal search agents.Open-Source AI Agent Frameworks 2026: Complete Developer ...

Pipecat - Open-source framework for voice and multimodal conversational AIPipecat - Open-source framework for voice and multimodal conversational AI. GitHub stars · Vocode - Open-source library for building voice-based LLM agents.GitHub - Zijian-Ni/awesome-ai-agents-2026: 🤖 A curated list of AI Agent frameworks, tools, platforms, and resources for 2026 — the year agents went mainstream · GitHub

La gente también pregunta

¿Cuál es la respuesta corta a "OpenSearch-VL: qué es el nuevo marco abierto de Tencent para buscar con imágenes, texto y herramientas"?

OpenSearch VL es un marco o “receta” de código abierto para construir agentes de búsqueda multimodal que razonan con imágenes, web y herramientas externas [1][2][3].

¿Cuáles son los puntos clave a validar primero?

¿Qué debo hacer a continuación en la práctica?

No se limita a responder preguntas sobre una imagen: puede activar búsqueda web, OCR, búsqueda inversa de imágenes y herramientas de mejora o corrección visual [3].

¿Qué tema relacionado debería explorar a continuación?

Continúe con "Apps con IA del Swift Student Challenge 2026 que convierten la accesibilidad en ayuda real" para conocer otro ángulo y citas adicionales.

Abrir página relacionada

¿Con qué debería comparar esto?

Verifique esta respuesta con "La apuesta de Nvidia por IREN: la IA ya se construye en gigavatios".

Abrir página relacionada

Continúe su investigación

What are some AI powered accessibility apps created by Apple’s 2026 Swift Student Challenge winners, and how do they solve real world proble

Apps con IA del Swift Student Challenge 2026 que convierten la accesibilidad en ayuda real

Cuatro ideas con IA de estudiantes de Apple que atacan problemas reales

NVIDIA Just Invested $2 Billion to Build the First AI Factories DailyNoons 106 subscribers 4 likes 414 views 1 Apr 2026 NVIDIA just made a **massive move in the AI infrastructure r

La apuesta de Nvidia por IREN: la IA ya se construye en gigavatios

La apuesta de Nvidia por IREN muestra que los centros de datos de IA empiezan por la energía

JPMorgan forecasts Strategy's Bitcoin acquisitions could hit $30 billion by 2026, with 145834 BTC bought this year alone, valued at $11

La previsión de JPMorgan sobre Strategy: hasta 30.000 millones de dólares más en Bitcoin

JPMorgan ve a Strategy comprando hasta 30.000 millones de dólares en Bitcoin en 2026

# Vietnam eyes MSCI watchlist in June 2026. ## With sweeping capital market reforms underway, Vietnam is entering 2026 with its strongest structural footing yet for a potential MSC

Vietnam gana opciones ante MSCI tras el ascenso de FTSE

El ascenso de Vietnam en FTSE refuerza su candidatura ante MSCI para 2026

Fuentes

[1] OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agentsarxiv.org
Multimodal Search Agents Shawn Chen1,2, Kaituo Feng3, Hangting Chen1, Wenxuan Huang3, Dasen Dai3, Quanxin Shou2,4 Yunlong Lin3, Xiangyu Yue3, Shenghua Gao4, Tianyu Pang1,†
[2] An Open Recipe for Frontier Multimodal Search Agents - arXivarxiv.org
Computer Science Computer Vision and Pattern Recognition arXiv:2605.05185 (cs) [Submitted on 6 May 2026]
[3] Tencent Releases OpenSearch-VL: A Comprehensive Solution for ...news.aibase.com
Tencent Releases OpenSearch-VL: A Comprehensive Solution for Open-Source Multimodal Deep Search Agent Published in Latest AI NewsTime :May 7, 2026Read :6minute With the rapid development of multimodal large language models (MLLMs), how to enable models to e...

Tendencias en Descubrir

RespuestasPublicado8 may 2026Last edited 8 may 20263 fuentes

OpenSearch-VL: qué es el nuevo marco abierto de Tencent para buscar con imágenes, texto y herramientas

Buscar y verificar hechos con Studio Global AI Explora más de Descubrir

2210

Qué es OpenSearch-VL

Qué lo diferencia de un modelo visual convencional

Cómo se entrenó

Comparación con OpenAI y Google

La cautela necesaria

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Buscar y verificar hechos con Studio Global AI

Conclusiones clave

OpenSearch VL es un marco o “receta” de código abierto para construir agentes de búsqueda multimodal que razonan con imágenes, web y herramientas externas [1][2][3].
El proyecto procede de Tencent Hunyuan, con colaboradores como UCLA y la Universidad China de Hong Kong [1][3].
No se limita a responder preguntas sobre una imagen: puede activar búsqueda web, OCR, búsqueda inversa de imágenes y herramientas de mejora o corrección visual [3].
Según Tencent, sus pruebas muestran una mejora media de más de 10 puntos porcentuales en siete benchmarks de búsqueda multimodal profunda y resultados comparables a modelos comerciales cerrados en algunas tareas [3].

Imágenes de apoyo

La gente también pregunta

¿Cuál es la respuesta corta a "OpenSearch-VL: qué es el nuevo marco abierto de Tencent para buscar con imágenes, texto y herramientas"?

OpenSearch VL es un marco o “receta” de código abierto para construir agentes de búsqueda multimodal que razonan con imágenes, web y herramientas externas [1][2][3].

¿Cuáles son los puntos clave a validar primero?

¿Qué debo hacer a continuación en la práctica?

No se limita a responder preguntas sobre una imagen: puede activar búsqueda web, OCR, búsqueda inversa de imágenes y herramientas de mejora o corrección visual [3].

¿Qué tema relacionado debería explorar a continuación?

Continúe con "Apps con IA del Swift Student Challenge 2026 que convierten la accesibilidad en ayuda real" para conocer otro ángulo y citas adicionales.

Abrir página relacionada

¿Con qué debería comparar esto?

Verifique esta respuesta con "La apuesta de Nvidia por IREN: la IA ya se construye en gigavatios".

Abrir página relacionada

Continúe su investigación

Apps con IA del Swift Student Challenge 2026 que convierten la accesibilidad en ayuda real

Cuatro ideas con IA de estudiantes de Apple que atacan problemas reales

La apuesta de Nvidia por IREN: la IA ya se construye en gigavatios

La apuesta de Nvidia por IREN muestra que los centros de datos de IA empiezan por la energía

La previsión de JPMorgan sobre Strategy: hasta 30.000 millones de dólares más en Bitcoin

JPMorgan ve a Strategy comprando hasta 30.000 millones de dólares en Bitcoin en 2026

Vietnam gana opciones ante MSCI tras el ascenso de FTSE

El ascenso de Vietnam en FTSE refuerza su candidatura ante MSCI para 2026

Fuentes

[1] OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agentsarxiv.org
Multimodal Search Agents Shawn Chen1,2, Kaituo Feng3, Hangting Chen1, Wenxuan Huang3, Dasen Dai3, Quanxin Shou2,4 Yunlong Lin3, Xiangyu Yue3, Shenghua Gao4, Tianyu Pang1,†
[2] An Open Recipe for Frontier Multimodal Search Agents - arXivarxiv.org
Computer Science Computer Vision and Pattern Recognition arXiv:2605.05185 (cs) [Submitted on 6 May 2026]
[3] Tencent Releases OpenSearch-VL: A Comprehensive Solution for ...news.aibase.com
Tencent Releases OpenSearch-VL: A Comprehensive Solution for Open-Source Multimodal Deep Search Agent Published in Latest AI NewsTime :May 7, 2026Read :6minute With the rapid development of multimodal large language models (MLLMs), how to enable models to e...

Tendencias en Descubrir

RespuestasPublicado8 may 2026Last edited 8 may 20263 fuentes

OpenSearch-VL: qué es el nuevo marco abierto de Tencent para buscar con imágenes, texto y herramientas

Buscar y verificar hechos con Studio Global AI Explora más de Descubrir

2210

Qué es OpenSearch-VL

Qué lo diferencia de un modelo visual convencional

Cómo se entrenó

Comparación con OpenAI y Google

La cautela necesaria

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Buscar y verificar hechos con Studio Global AI

Conclusiones clave

OpenSearch VL es un marco o “receta” de código abierto para construir agentes de búsqueda multimodal que razonan con imágenes, web y herramientas externas [1][2][3].
El proyecto procede de Tencent Hunyuan, con colaboradores como UCLA y la Universidad China de Hong Kong [1][3].
No se limita a responder preguntas sobre una imagen: puede activar búsqueda web, OCR, búsqueda inversa de imágenes y herramientas de mejora o corrección visual [3].
Según Tencent, sus pruebas muestran una mejora media de más de 10 puntos porcentuales en siete benchmarks de búsqueda multimodal profunda y resultados comparables a modelos comerciales cerrados en algunas tareas [3].

Imágenes de apoyo

La gente también pregunta

¿Cuál es la respuesta corta a "OpenSearch-VL: qué es el nuevo marco abierto de Tencent para buscar con imágenes, texto y herramientas"?

OpenSearch VL es un marco o “receta” de código abierto para construir agentes de búsqueda multimodal que razonan con imágenes, web y herramientas externas [1][2][3].

¿Cuáles son los puntos clave a validar primero?

¿Qué debo hacer a continuación en la práctica?

No se limita a responder preguntas sobre una imagen: puede activar búsqueda web, OCR, búsqueda inversa de imágenes y herramientas de mejora o corrección visual [3].

¿Qué tema relacionado debería explorar a continuación?

Continúe con "Apps con IA del Swift Student Challenge 2026 que convierten la accesibilidad en ayuda real" para conocer otro ángulo y citas adicionales.

Abrir página relacionada

¿Con qué debería comparar esto?

Verifique esta respuesta con "La apuesta de Nvidia por IREN: la IA ya se construye en gigavatios".

Abrir página relacionada

Continúe su investigación

Fuentes

[1] OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agentsarxiv.org
Multimodal Search Agents Shawn Chen1,2, Kaituo Feng3, Hangting Chen1, Wenxuan Huang3, Dasen Dai3, Quanxin Shou2,4 Yunlong Lin3, Xiangyu Yue3, Shenghua Gao4, Tianyu Pang1,†
[2] An Open Recipe for Frontier Multimodal Search Agents - arXivarxiv.org
Computer Science Computer Vision and Pattern Recognition arXiv:2605.05185 (cs) [Submitted on 6 May 2026]
[3] Tencent Releases OpenSearch-VL: A Comprehensive Solution for ...news.aibase.com
Tencent Releases OpenSearch-VL: A Comprehensive Solution for Open-Source Multimodal Deep Search Agent Published in Latest AI NewsTime :May 7, 2026Read :6minute With the rapid development of multimodal large language models (MLLMs), how to enable models to e...