JawabanDipublikasikan2 bulan yang laluLast edited 2 bulan yang lalu14 sumber

Tencent OpenSearch-VL: Resep Open Source untuk Agen Pencarian AI Multimodal

Tencent merilis OpenSearch VL sebagai resep open source untuk membangun agen pencarian AI multimodal, dengan makalah yang diajukan ke arXiv pada 6 Mei 2026. Kerangka ini melatih agen memakai alat seperti pencarian web, reverse image search, OCR, cropping, sharpening, super resolution, dan koreksi perspektif.

Cari dan periksa fakta dengan Studio Global AI Jelajahi lebih banyak halaman Trending

Illustration of a multimodal AI search agent combining image analysis, web search and reasoning tools — Tencent OpenSearch-VL: Open-Source Multimodal Search Agents vsAI-generated editorial illustration for Tencent OpenSearch-VL and multimodal AI search agents.
AI Perintah
Create a landscape editorial hero image for this Studio Global article: Tencent OpenSearch-VL: Open-Source Multimodal Search Agents vs. OpenAI and Google. Article summary: OpenSearch VL is Tencent Hunyuan’s open source recipe for multimodal AI search agents, submitted to arXiv on May 6, 2026; it uses tools such as web search, OCR and image processing, but claims of parity with closed Op.... Topic tags: ai, ai agents, multimodal ai, open source, tencent. Reference image context from search candidates: Reference image 1: visual subject "OpenAI Updates Codex: Supports Mac Desktop Control, Multi-Agent Parallelism, and Long-Term Task Execution" source context "Google: AI Agents, Multimodal AI, and Enterprise Search Will Dominate by 2025" Reference image 2: visual subject "Google Releases Veo3.1Lite: Video Generation Cost Reduced by Over 50% Supports 1080p Multi-Format Output" source context "
openai.com

OpenSearch-VL dari Tencent bukan chatbot konsumen baru. Ini adalah resep pelatihan open-source untuk membangun agen pencarian AI multimodal: sistem yang tidak hanya menjawab dari satu gambar, tetapi bisa mencari bukti tambahan, memakai alat, lalu bernalar dalam beberapa langkah .

Makalahnya tercatat diajukan ke arXiv, repositori pracetak yang banyak dipakai peneliti, pada 6 Mei 2026 . Liputan peluncuran menyebut Tencent Hunyuan bekerja sama dengan UCLA dan The Chinese University of Hong Kong dalam rilis ini .

Masalah yang ingin dipecahkan

Tantangan besar untuk model bahasa multimodal adalah bergerak dari sekadar “memahami gambar” secara pasif menjadi sistem yang aktif mencari bukti dan menyusun penalaran. Liputan awal menyebut kurangnya data lintasan berkualitas, jalur sintesis otomatis, dan resep pelatihan yang rinci sebagai hambatan untuk mereproduksi agen pencarian multimodal kelas atas .

OpenSearch-VL mencoba menjawab celah itu dengan membuka resep yang lebih eksplisit: data, orkestrasi alat, supervised fine-tuning, reinforcement learning, dan evaluasi untuk pencarian multimodal mendalam .

Cara agen ini mencari jawaban dari gambar

Model vision-language biasa dapat mendeskripsikan gambar atau menjawab pertanyaan dari piksel yang terlihat. OpenSearch-VL dirancang untuk bekerja dalam . Dalam makalahnya, agen dapat memanggil pencarian web, reverse image search, OCR atau pengenalan teks dalam gambar, cropping, sharpening, super-resolution, serta koreksi perspektif .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Cari dan periksa fakta dengan Studio Global AI

Orang-orang juga bertanya

Apa jawaban singkat untuk "Tencent OpenSearch-VL: Resep Open Source untuk Agen Pencarian AI Multimodal"?

Tencent merilis OpenSearch VL sebagai resep open source untuk membangun agen pencarian AI multimodal, dengan makalah yang diajukan ke arXiv pada 6 Mei 2026.

Apa poin penting yang harus divalidasi terlebih dahulu?

Apa yang harus saya lakukan selanjutnya dalam latihan?

Keunggulan paling jelas dibanding sistem proprietary adalah keterbukaan resep pelatihan, meski klaim performanya masih perlu diuji ulang secara independen.

Tencent OpenSearch-VL: Resep Open Source untuk Agen Pencarian AI Multimodal

Masalah yang ingin dipecahkan

Cara agen ini mencari jawaban dari gambar

Search, cite, and publish your own answer

Orang-orang juga bertanya

Apa jawaban singkat untuk "Tencent OpenSearch-VL: Resep Open Source untuk Agen Pencarian AI Multimodal"?

Apa poin penting yang harus divalidasi terlebih dahulu?

Apa yang harus saya lakukan selanjutnya dalam latihan?

Sumber

Resep pelatihan: SFT, RL, dan belajar dari alat yang gagal

Klaim performa: menjanjikan, tapi belum final

Dibandingkan sistem proprietary OpenAI dan Google

Hal yang perlu dipantau berikutnya