A Tencent apresentou o OpenSearch-VL como uma receita de treinamento open-source para agentes de busca multimodal — não como mais um chatbot pronto para o consumidor. A ideia é fazer modelos de visão e linguagem irem além de responder perguntas sobre uma única imagem: eles devem buscar evidências que faltam, acionar ferramentas e raciocinar em várias etapas [17].
O arXiv, repositório de pré-publicações muito usado pela comunidade acadêmica de IA, lista o artigo como submetido em 6 de maio de 2026. A cobertura de lançamento afirma que o Tencent Hunyuan colaborou com a UCLA, nos Estados Unidos, e com a Universidade Chinesa de Hong Kong no projeto [18][
21].
A lacuna que o OpenSearch-VL tenta fechar
O alvo principal é a reprodutibilidade. A cobertura inicial enquadrou o próximo desafio dos grandes modelos multimodais como uma passagem de entender imagens de forma passiva para buscar provas ativamente e raciocinar sobre elas. Também apontou gargalos conhecidos: falta de dados de trajetórias de alta qualidade, caminhos automatizados de síntese e receitas de treinamento suficientemente detalhadas [1].
A resposta do OpenSearch-VL é publicar uma fórmula mais explícita para criar agentes: dados, orquestração de ferramentas, ajuste fino supervisionado, aprendizado por reforço e avaliação voltada à chamada busca profunda multimodal [17].



