studioglobal
Tendencias en Descubrir
RespuestasPublicado3 fuentes

OpenSearch-VL: qué es el nuevo marco abierto de Tencent para buscar con imágenes, texto y herramientas

OpenSearch VL es un marco o “receta” de código abierto para construir agentes de búsqueda multimodal que razonan con imágenes, web y herramientas externas [1][2][3]. El proyecto procede de Tencent Hunyuan, con colaboradores como UCLA y la Universidad China de Hong Kong [1][3].

2210
# Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. #### Minghan Xu. Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. The 2026 la
# Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide# Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. #### Minghan Xu. Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. The 2026 landscape offers mature, production-ready options across different architectural approaches, each optimized for specific use cases and team reOpen-Source AI Agent Frameworks 2026: Complete Developer ...

OpenSearch-VL es el nuevo marco de código abierto que Tencent ha presentado para construir agentes de búsqueda multimodal: sistemas que no solo interpretan imágenes, sino que también pueden buscar pistas en la web, leer texto dentro de imágenes mediante OCR, hacer búsqueda inversa y aplicar herramientas de procesamiento visual antes de responder [1][2][3]. La idea de fondo es pasar de un modelo que “mira y contesta” a un agente que recopila evidencia y razona en varios pasos [3].

Qué es OpenSearch-VL

El trabajo se describe como “An Open Recipe for Frontier Multimodal Search Agents” y fue enviado a arXiv el 6 de mayo de 2026 [2]. En términos prácticos, esa “receta” combina datos, entrenamiento y uso de herramientas para que otros equipos puedan reproducir o mejorar agentes de búsqueda multimodal.

El proyecto procede de Tencent Hunyuan y cuenta con colaboradores académicos, entre ellos UCLA —la Universidad de California en Los Ángeles— y la Universidad China de Hong Kong, según el listado del artículo y la cobertura inicial [1][3].

Qué lo diferencia de un modelo visual convencional

Un modelo clásico de preguntas y respuestas sobre imágenes suele recibir una imagen y una pregunta, y produce una respuesta. OpenSearch-VL apunta a algo más activo: elegir herramientas externas, reunir información y corregir el rumbo si parte del proceso falla [3].

Entre las herramientas mencionadas están la búsqueda web, la búsqueda inversa de imágenes, el OCR —reconocimiento óptico de caracteres—, el recorte de imágenes, el aumento de nitidez, la superresolución y la corrección de perspectiva [3]. Ese enfoque busca que el agente pueda trabajar con evidencias visuales incompletas, borrosas o que requieren contraste con información externa.

Cómo se entrenó

Según la información publicada, el proyecto incluye datos para ajuste supervisado y aprendizaje por refuerzo: SearchVL-SFT con 36.000 trayectorias y SearchVL-RL con 8.000 trayectorias [3]. También introduce un método llamado “Multi-round Fault-Aware GRPO”, pensado para aprender de trayectorias de uso de herramientas que pueden fallar parcialmente durante varias rondas [3].

Este punto es importante porque, en agentes de búsqueda, no basta con que el modelo “sepa” mirar una imagen: debe decidir cuándo buscar, qué herramienta usar, cómo interpretar el resultado y cuándo seguir investigando.

Comparación con OpenAI y Google

La diferencia principal frente a sistemas comparables de OpenAI y Google está en la apertura. Mientras los agentes multimodales de búsqueda o investigación de esas compañías suelen ser propietarios, OpenSearch-VL se presenta como una alternativa abierta, con la intención de publicar datos de entrenamiento, código y pesos del modelo para facilitar la reproducción y la mejora por parte de la comunidad investigadora [3].

En rendimiento, Tencent afirma que OpenSearch-VL mejora la media en más de 10 puntos porcentuales en siete benchmarks de búsqueda multimodal profunda y que alcanza resultados comparables a modelos comerciales cerrados líderes en algunas tareas [3]. Eso lo coloca como una propuesta relevante en la carrera por agentes multimodales más capaces, pero no equivale todavía a una prueba definitiva de superioridad general frente a OpenAI o Google.

La cautela necesaria

Por ahora, la evidencia pública citada procede sobre todo del artículo en arXiv y de cobertura inicial del lanzamiento [1][2][3]. Hasta que haya evaluaciones independientes más amplias, conviene leer las comparaciones con modelos propietarios como una señal prometedora, no como un veredicto cerrado.

En resumen: Tencent ha lanzado OpenSearch-VL como una vía abierta para construir agentes de búsqueda multimodal con herramientas externas. Su atractivo está en combinar visión, búsqueda y razonamiento paso a paso; su gran prueba pendiente será demostrar, fuera de los benchmarks reportados por sus autores, hasta qué punto puede igualar a los sistemas cerrados más avanzados.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Buscar y verificar hechos con Studio Global AI

Conclusiones clave

  • OpenSearch VL es un marco o “receta” de código abierto para construir agentes de búsqueda multimodal que razonan con imágenes, web y herramientas externas [1][2][3].
  • El proyecto procede de Tencent Hunyuan, con colaboradores como UCLA y la Universidad China de Hong Kong [1][3].
  • No se limita a responder preguntas sobre una imagen: puede activar búsqueda web, OCR, búsqueda inversa de imágenes y herramientas de mejora o corrección visual [3].
  • Según Tencent, sus pruebas muestran una mejora media de más de 10 puntos porcentuales en siete benchmarks de búsqueda multimodal profunda y resultados comparables a modelos comerciales cerrados en algunas tareas [3].

Imágenes de apoyo

Abstract digital illustration of open-source AI agent frameworks with connected components
Open-Source AI Agent Frameworks 2026: Complete Developer Comparison GuideA generic AI-agent framework illustration; OpenSearch-VL applies the open-source approach to multimodal search agents.Open-Source AI Agent Frameworks 2026: Complete Developer ...
Pipecat - Open-source framework for voice and multimodal conversational AI. GitHub stars · Vocode - Open-source library for building voice-based LLM agents.
Pipecat - Open-source framework for voice and multimodal conversational AIPipecat - Open-source framework for voice and multimodal conversational AI. GitHub stars · Vocode - Open-source library for building voice-based LLM agents.GitHub - Zijian-Ni/awesome-ai-agents-2026: 🤖 A curated list of AI Agent frameworks, tools, platforms, and resources for 2026 — the year agents went mainstream · GitHub

La gente también pregunta

¿Cuál es la respuesta corta a "OpenSearch-VL: qué es el nuevo marco abierto de Tencent para buscar con imágenes, texto y herramientas"?

OpenSearch VL es un marco o “receta” de código abierto para construir agentes de búsqueda multimodal que razonan con imágenes, web y herramientas externas [1][2][3].

¿Cuáles son los puntos clave a validar primero?

OpenSearch VL es un marco o “receta” de código abierto para construir agentes de búsqueda multimodal que razonan con imágenes, web y herramientas externas [1][2][3]. El proyecto procede de Tencent Hunyuan, con colaboradores como UCLA y la Universidad China de Hong Kong [1][3].

¿Qué debo hacer a continuación en la práctica?

No se limita a responder preguntas sobre una imagen: puede activar búsqueda web, OCR, búsqueda inversa de imágenes y herramientas de mejora o corrección visual [3].

¿Qué tema relacionado debería explorar a continuación?

Continúe con "Apps con IA del Swift Student Challenge 2026 que convierten la accesibilidad en ayuda real" para conocer otro ángulo y citas adicionales.

Abrir página relacionada

¿Con qué debería comparar esto?

Verifique esta respuesta con "La apuesta de Nvidia por IREN: la IA ya se construye en gigavatios".

Abrir página relacionada

Continúe su investigación

Fuentes