Ini penting karena bukti visual sering tidak rapi: teks terlalu kecil, objek dilihat dari sudut yang salah, tengara terpotong, atau ada petunjuk visual yang perlu dikonfirmasi lewat sumber luar. Dalam skema OpenSearch-VL, model dapat memutuskan bukti apa yang kurang, memilih alat pencarian atau pemrosesan gambar, lalu memakai hasilnya untuk langkah penalaran berikutnya .
Makalah OpenSearch-VL memperkenalkan dua kumpulan data lintasan: SearchVL-SFT dengan 36.000 lintasan supervised fine-tuning dan SearchVL-RL dengan 8.000 lintasan reinforcement learning . Di sini, “lintasan” dapat dipahami sebagai jejak keputusan agen: kapan mencari, kapan memotong gambar, kapan memakai OCR, dan kapan berhenti mengumpulkan bukti.
OpenSearch-VL juga memperkenalkan Multi-round Fault-Aware GRPO, metode pelatihan untuk lintasan penggunaan alat multi-langkah, termasuk ketika tindakan perantara gagal, hanya membantu sebagian, atau perlu dikoreksi . Fokus pada lintasan ini menjadi kunci karena agen pencarian multimodal tidak cukup hanya tahu isi gambar; ia harus belajar kapan dan bagaimana menggunakan alat secara tepat
.
Klaim performa utamanya cukup kuat. Makalah tersebut melaporkan peningkatan rata-rata lebih dari 10 poin persentase di tujuh benchmark pencarian multimodal mendalam, dan menyebut OpenSearch-VL sebanding dengan model komersial closed-source terdepan pada sebagian tugas .
Namun, itu bukan berarti sudah terbukti setara sebagai produk dengan sistem OpenAI atau Google. Bukti yang tersedia saat ini berasal dari makalah penulis dan liputan peluncuran, bukan replikasi independen atau audit publik yang benar-benar setara terhadap sistem produksi . Jadi, posisi OpenSearch-VL sebaiknya dibaca sebagai perkembangan teknis yang menjanjikan, tetapi masih awal untuk menilai keandalan dunia nyata, latensi, perilaku keselamatan, dan kemampuan pulih dari kegagalan dalam pencarian panjang.
Bagi pembaca yang membandingkannya dengan sistem proprietary dari OpenAI dan Google, perbedaan paling jelas adalah keterbukaan. OpenSearch-VL diposisikan sebagai resep terbuka dan skema pelatihan open-source, sementara materi yang dikutip tidak membuka tumpukan pelatihan setara dari produk komersial tertutup tersebut .
Karena itu, OpenSearch-VL menarik bagi peneliti dan pengembang yang ingin memeriksa bagaimana agen pencarian multimodal dilatih, bagaimana lintasan penggunaan alat dibuat, dan di mana penalaran visual multi-langkah bisa gagal. Klaim benchmark membuatnya layak diperhatikan sebagai penantang terbuka, tetapi bukti publik belum cukup untuk menyimpulkan bahwa ia sudah menyamai sistem tertutup dalam penggunaan produksi .
Ujian berikutnya akan lebih praktis: apakah peneliti luar dapat mereproduksi hasil benchmark yang dilaporkan, apakah resep ini bekerja di domain di luar set evaluasi makalah, dan apakah agen yang dilatih dengan cara ini dapat menangani kesalahan alat secara konsisten dalam pencarian dunia nyata yang lebih panjang.
Untuk saat ini, kontribusi terbesar OpenSearch-VL adalah transparansi. Ia memberi komunitas AI resep terbuka yang konkret untuk membangun agen pencarian multimodal, sekaligus cara yang lebih jelas untuk menguji apakah sistem terbuka dapat mengejar produk pencarian AI proprietary .
Comments
0 comments