คำตอบสั้น ๆ: Tencent เปิดตัว OpenSearch-VL เฟรมเวิร์กหรือ “สูตรเปิด” สำหรับสร้างเอเจนต์ค้นหา AI แบบมัลติโหมด ที่รับมือทั้งภาพ ข้อความ และเว็บ โดยให้โมเดลวางแผน ค้นหลักฐาน และใช้เครื่องมือภายนอกหลายขั้นก่อนตอบคำถาม [1][
2][
3]. ประเด็นสำคัญคือมันไม่ได้ถูกนำเสนอแค่เป็นโมเดลดูภาพแล้วตอบ แต่เป็นทางเลือกแบบเปิดต่อระบบค้นหา/วิจัยหลายสื่อของ OpenAI และ Google ซึ่งส่วนใหญ่ยังเป็นระบบปิด [
3].
OpenSearch-VL คืออะไร
งานวิจัยใช้ชื่อว่า OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents และระบุว่าส่งขึ้น arXiv เมื่อวันที่ 6 พฤษภาคม 2026 [2]. โครงการมาจาก Tencent Hunyuan โดยมีผู้ร่วมงานจาก UCLA และ The Chinese University of Hong Kong ตามข้อมูลในรายงานและรายการบทความ [
1][
3].
ในทางปฏิบัติ “เอเจนต์ค้นหา AI หลายสื่อ” หมายถึงระบบที่ไม่เพียงอ่านภาพหรืออ่านข้อความ แต่เลือกใช้เครื่องมือเพื่อไล่หาหลักฐานเองได้ เช่น ค้นเว็บ ค้นหาภาพย้อนกลับ ทำ OCR เพื่ออ่านข้อความจากภาพ ตัดภาพบางส่วน ปรับความคมชัด ทำ super-resolution และแก้ภาพเอียงหรือมุมมองก่อนสรุปคำตอบ [3].
ต่างจากระบบถาม-ตอบภาพทั่วไปอย่างไร
จุดขายของ OpenSearch-VL คือการทำให้โมเดลเปลี่ยนจากการ “เข้าใจภาพแบบรับคำถามแล้วตอบ” ไปสู่การ “ออกไปค้นหลักฐานและให้เหตุผลหลายรอบ” ตามที่รายงานเปิดตัวอธิบายไว้ [3]. ตัวอย่างเชิงแนวคิดคือ ถ้าผู้ใช้ถามเกี่ยวกับสถานที่ วัตถุ หรือข้อความเล็ก ๆ ในภาพ ระบบอาจต้องซูม ตัดภาพ อ่านตัวหนังสือด้วย OCR แล้วค้นเว็บหรือค้นภาพย้อนกลับเพื่อยืนยันก่อนตอบ ไม่ใช่เดาจากภาพเพียงครั้งเดียว.
สูตรฝึกโมเดลที่ Tencent เปิดเผย
โครงการระบุชุดข้อมูลและวิธีฝึกที่ใช้ทั้ง supervised fine-tuning และ reinforcement learning ได้แก่ SearchVL-SFT จำนวน 36,000 trajectory และ SearchVL-RL จำนวน 8,000 trajectory โดย trajectory หมายถึงลำดับการตัดสินใจและการใช้เครื่องมือของเอเจนต์ระหว่างหาคำตอบ [3]. นอกจากนี้ยังมีวิธีฝึกชื่อ Multi-round Fault-Aware GRPO ซึ่งออกแบบให้เรียนรู้จากเส้นทางการใช้เครื่องมือที่อาจล้มเหลวบางช่วง ไม่ใช่รอเฉพาะตัวอย่างที่สมบูรณ์แบบเท่านั้น [
3].
เทียบกับ OpenAI และ Google: เปิดกับปิด
ความต่างที่ชัดที่สุดไม่ใช่แค่คะแนนทดสอบ แต่คือระดับการเปิดให้ตรวจสอบและทำซ้ำได้ รายงานระบุว่าเอเจนต์ค้นหา/วิจัยหลายสื่อที่เทียบเคียงได้จาก OpenAI และ Google ยังเป็นระบบ proprietary หรือระบบปิดเป็นหลัก ขณะที่ OpenSearch-VL วางตัวเป็นแนวทางโอเพนซอร์สที่ตั้งใจเปิดข้อมูลฝึก โค้ด และน้ำหนักโมเดล เพื่อให้นักวิจัยนำไปทำซ้ำหรือปรับปรุงต่อได้ [3].
อย่างไรก็ตาม “โอเพนซอร์ส” ไม่ได้แปลว่าเหนือกว่าระบบปิดโดยอัตโนมัติ ข้อได้เปรียบหลักในตอนนี้คือความโปร่งใสและความสามารถในการทดลองซ้ำ ส่วนประสิทธิภาพจริงยังต้องดูการใช้งานและการประเมินจากหลายฝ่าย.
ผลทดสอบที่รายงาน และข้อควรระวัง
ตามรายงานของ Tencent/OpenSearch-VL ระบบนี้ทำคะแนนเฉลี่ยดีขึ้นมากกว่า 10 จุดเปอร์เซ็นต์บนเบนช์มาร์ก multimodal deep-search 7 ชุด และทำได้ใกล้เคียงโมเดลเชิงพาณิชย์แบบปิดระดับนำในบางงาน [3]. แต่ควรอ่านประโยคนี้อย่างระมัดระวัง: หลักฐานสาธารณะในช่วงเปิดตัวยังมาจากบทความ arXiv และรายงานข่าวเบื้องต้นเป็นหลัก ไม่ใช่ผลรับรองอิสระจากหลายองค์กร [
1][
2][
3].
สรุปสำหรับผู้อ่าน
ถ้าคุณติดตาม AI ด้านค้นหา OpenSearch-VL สำคัญเพราะมันเสนอ “สูตรเปิด” สำหรับสร้างเอเจนต์ที่ใช้ภาพ เว็บ และเครื่องมือประมวลผลภาพร่วมกันอย่างเป็นขั้นตอน แทนที่จะเป็นกล่องดำแบบระบบปิดทั้งหมด แต่ถ้าถามว่ามัน “ชนะ” OpenAI หรือ Google แล้วหรือยัง คำตอบที่รอบคอบคือ: ยังเร็วเกินไปที่จะสรุป คำอ้างว่าทำได้เทียบชั้นระบบปิดควรรอการทดสอบอิสระเพิ่มเติม [1][
2][
3].





