RespostasPublicadohá 3 diasLast edited anteontem4 fontes

OpenSearch-VL explicado: a aposta aberta da Tencent para agentes de busca multimodais

O OpenSearch VL é uma receita open source para treinar agentes de busca multimodal; o artigo foi submetido ao arXiv em 6 de maio de 2026. O framework ensina o agente a usar ferramentas como busca web, busca reversa de imagens, OCR, recorte, nitidez, super resolução e correção de perspectiva.

Pesquisar e verificar fatos com Studio Global AI Veja mais páginas em alta

71K0

Illustration of a multimodal AI search agent combining image analysis, web search and reasoning tools — Tencent OpenSearch-VL: Open-Source Multimodal Search Agents vsAI-generated editorial illustration for Tencent OpenSearch-VL and multimodal AI search agents.
Prompt de IA
Create a landscape editorial hero image for this Studio Global article: Tencent OpenSearch-VL: Open-Source Multimodal Search Agents vs. OpenAI and Google. Article summary: OpenSearch VL is Tencent Hunyuan’s open source recipe for multimodal AI search agents, submitted to arXiv on May 6, 2026; it uses tools such as web search, OCR and image processing, but claims of parity with closed Op.... Topic tags: ai, ai agents, multimodal ai, open source, tencent. Reference image context from search candidates: Reference image 1: visual subject "OpenAI Updates Codex: Supports Mac Desktop Control, Multi-Agent Parallelism, and Long-Term Task Execution" source context "Google: AI Agents, Multimodal AI, and Enterprise Search Will Dominate by 2025" Reference image 2: visual subject "Google Releases Veo3.1Lite: Video Generation Cost Reduced by Over 50% Supports 1080p Multi-Format Output" source context "
openai.com

A Tencent apresentou o OpenSearch-VL como uma receita de treinamento open-source para agentes de busca multimodal — não como mais um chatbot pronto para o consumidor. A ideia é fazer modelos de visão e linguagem irem além de responder perguntas sobre uma única imagem: eles devem buscar evidências que faltam, acionar ferramentas e raciocinar em várias etapas ^[17].

O arXiv, repositório de pré-publicações muito usado pela comunidade acadêmica de IA, lista o artigo como submetido em 6 de maio de 2026. A cobertura de lançamento afirma que o Tencent Hunyuan colaborou com a UCLA, nos Estados Unidos, e com a Universidade Chinesa de Hong Kong no projeto ^[18]^[21].

A lacuna que o OpenSearch-VL tenta fechar

O alvo principal é a reprodutibilidade. A cobertura inicial enquadrou o próximo desafio dos grandes modelos multimodais como uma passagem de entender imagens de forma passiva para buscar provas ativamente e raciocinar sobre elas. Também apontou gargalos conhecidos: falta de dados de trajetórias de alta qualidade, caminhos automatizados de síntese e receitas de treinamento suficientemente detalhadas ^[1].

A resposta do OpenSearch-VL é publicar uma fórmula mais explícita para criar agentes: dados, orquestração de ferramentas, ajuste fino supervisionado, aprendizado por reforço e avaliação voltada à chamada busca profunda multimodal ^[17].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Pesquisar e verificar fatos com Studio Global AI

Principais conclusões

O OpenSearch VL é uma receita open source para treinar agentes de busca multimodal; o artigo foi submetido ao arXiv em 6 de maio de 2026.
O framework ensina o agente a usar ferramentas como busca web, busca reversa de imagens, OCR, recorte, nitidez, super resolução e correção de perspectiva.
A vantagem mais clara frente a sistemas fechados da OpenAI e do Google é a transparência; superioridade em nível de produto ainda não foi comprovada de forma independente.

As pessoas também perguntam

Câu trả lời ngắn gọn cho "OpenSearch-VL explicado: a aposta aberta da Tencent para agentes de busca multimodais" là gì?

O OpenSearch VL é uma receita open source para treinar agentes de busca multimodal; o artigo foi submetido ao arXiv em 6 de maio de 2026.

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

A vantagem mais clara frente a sistemas fechados da OpenAI e do Google é a transparência; superioridade em nível de produto ainda não foi comprovada de forma independente.

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Fake DDR5 RAM Is Spreading as AI Drives a Memory Shortage" để có góc nhìn khác và trích dẫn bổ sung.

Abrir página relacionada

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "Cheapest Local AI GPU Upgrade for an Old Server: Used Tesla P40 24GB".

Abrir página relacionada

Continue sua pesquisa

As the AI boom causes DDR5 shortage and high prices, PC builders are reviving 19-year-old DDR3 memory tech to stay under budget in 2026.

Fake DDR5 RAM Is Spreading as AI Drives a Memory Shortage

# Tesla P40: The Best Budget GPU for Local AI. Why the $250 Tesla P40 is the #1 recommendation for budget AI builders | Updated April 2026. The **NVIDIA Tesla P40 24GB** is the GPU

Cheapest Local AI GPU Upgrade for an Old Server: Used Tesla P40 24GB

Fontes

[1] Tencent Releases OpenSearch-VL: A Comprehensive Solution for ...news.aibase.com
Tencent Releases OpenSearch-VL: A Comprehensive Solution for Open-Source Multimodal Deep Search Agent Published in Latest AI NewsTime :May 7, 2026Read :6minute With the rapid development of multimodal large language models (MLLMs), how to enable models to e...
[17] OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agentsarxiv.org
Multimodal Search Agents Shawn Chen1,2, Kaituo Feng3, Hangting Chen1, Wenxuan Huang3, Dasen Dai3, Quanxin Shou2,4 Yunlong Lin3, Xiangyu Yue3, Shenghua Gao4, Tianyu Pang1,†
[18] An Open Recipe for Frontier Multimodal Search Agents - arXivarxiv.org
Computer Science Computer Vision and Pattern Recognition arXiv:2605.05185 (cs) [Submitted on 6 May 2026]
[21] 腾讯开源OpenSearch-VL，突破多模态搜索AI智能体训练瓶颈163.com
IT之家 5 月 7 日消息，腾讯混元（Tencent Hunyuan）携手加州大学洛杉矶分校（UCLA）、香港中文大学等学府，联合发布 OpenSearch-VL 开源多模态训练方案，通过强化学习（RL）技术，打造具备前沿能力的深度搜索智能体。

OpenSearch-VL explicado: a aposta aberta da Tencent para agentes de busca multimodais

A lacuna que o OpenSearch-VL tenta fechar

Search, cite, and publish your own answer

Principais conclusões

As pessoas também perguntam

Câu trả lời ngắn gọn cho "OpenSearch-VL explicado: a aposta aberta da Tencent para agentes de busca multimodais" là gì?

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tôi nên so sánh điều này với cái gì?

Continue sua pesquisa

Fake DDR5 RAM Is Spreading as AI Drives a Memory Shortage

Cheapest Local AI GPU Upgrade for an Old Server: Used Tesla P40 24GB

Fontes

Como o agente pesquisa usando imagens

A receita de treinamento: SFT, RL e falhas no uso de ferramentas

Desempenho reportado — com uma ressalva importante

Como ele se compara a sistemas proprietários da OpenAI e do Google

O que acompanhar daqui para frente

Baidu ERNIE 5.1: Why Its 6% Training-Cost Claim Matters

macOS 27’s Liquid Glass Fix Is About Readability, Not a Rollback