Câu trả lờiĐã xuất bản2 tháng trướcLast edited 2 tháng trước14 nguồn

OpenSearch-VL của Tencent là gì? Công thức mở cho AI biết tự đi tìm bằng chứng

OpenSearch VL là công thức huấn luyện nguồn mở cho tác tử tìm kiếm AI đa phương thức, được nộp lên arXiv ngày 6/5/2026. Framework này dạy mô hình gọi web search, tìm kiếm ảnh ngược, OCR và công cụ xử lý ảnh như cắt, làm nét, siêu phân giải, chỉnh phối cảnh.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI Duyệt thêm trang xu hướng

Illustration of a multimodal AI search agent combining image analysis, web search and reasoning tools — Tencent OpenSearch-VL: Open-Source Multimodal Search Agents vsAI-generated editorial illustration for Tencent OpenSearch-VL and multimodal AI search agents.
Prompt AI
Create a landscape editorial hero image for this Studio Global article: Tencent OpenSearch-VL: Open-Source Multimodal Search Agents vs. OpenAI and Google. Article summary: OpenSearch VL is Tencent Hunyuan’s open source recipe for multimodal AI search agents, submitted to arXiv on May 6, 2026; it uses tools such as web search, OCR and image processing, but claims of parity with closed Op.... Topic tags: ai, ai agents, multimodal ai, open source, tencent. Reference image context from search candidates: Reference image 1: visual subject "OpenAI Updates Codex: Supports Mac Desktop Control, Multi-Agent Parallelism, and Long-Term Task Execution" source context "Google: AI Agents, Multimodal AI, and Enterprise Search Will Dominate by 2025" Reference image 2: visual subject "Google Releases Veo3.1Lite: Video Generation Cost Reduced by Over 50% Supports 1080p Multi-Format Output" source context "
openai.com

OpenSearch-VL dễ được đọc như một sản phẩm tìm kiếm AI mới. Nhưng cách hiểu chính xác hơn là: Tencent đang công bố một công thức để huấn luyện tác tử tìm kiếm đa phương thức — tức hệ AI có thể nhìn ảnh, tự chọn công cụ, thu thập thêm bằng chứng rồi mới trả lời. Bài báo mô tả OpenSearch-VL như một công thức nguồn mở, nhằm kéo mô hình thị giác-ngôn ngữ ra khỏi kiểu trả lời dựa trên một bức ảnh duy nhất và hướng tới suy luận nhiều bước với công cụ hỗ trợ . Trên arXiv, bài được ghi nhận là nộp ngày 6/5/2026; tin ra mắt cho biết Tencent Hunyuan hợp tác với UCLA và Đại học Trung văn Hồng Kông trong lần công bố này .

Vấn đề: AI nhìn được ảnh, nhưng chưa chắc biết đi kiểm chứng

Trong làn sóng mô hình ngôn ngữ lớn đa phương thức, bài toán không chỉ là nhận diện ảnh. Tin ra mắt đặt trọng tâm ở bước chuyển từ hiểu ảnh một cách thụ động sang chủ động tìm bằng chứng và suy luận, đồng thời chỉ ra các điểm nghẽn như thiếu dữ liệu quỹ đạo chất lượng cao, thiếu đường sinh dữ liệu tự động và thiếu công thức huấn luyện đủ chi tiết để người khác tái lập .

OpenSearch-VL trả lời bằng cách đặt toàn bộ quy trình quanh tìm kiếm sâu đa phương thức: dữ liệu, điều phối công cụ, tinh chỉnh có giám sát, học tăng cường và đánh giá .

Cơ chế tìm kiếm: không chỉ nhìn ảnh, mà còn biết gọi công cụ

Thay vì chỉ mô tả những gì thấy trong ảnh, OpenSearch-VL được thiết kế cho một vòng lặp dùng công cụ. Theo bài báo, tác tử có thể gọi tìm kiếm web, tìm kiếm ảnh ngược, OCR để đọc chữ trong ảnh, cắt ảnh, làm nét, siêu phân giải và chỉnh phối cảnh .

Điều này quan trọng vì bằng chứng trong ảnh thường không trọn vẹn: một dòng chữ quá nhỏ, biển hiệu bị mờ, vật thể nhìn từ góc khó, mốc địa lý bị cắt mất hoặc chi tiết cần đối chiếu trên web. Trong thiết lập của OpenSearch-VL, mô hình phải quyết định đang thiếu loại bằng chứng nào, chọn công cụ phù hợp và đưa kết quả thu được vào các bước suy luận tiếp theo .

Cách huấn luyện: SFT, RL và học từ lỗi dùng công cụ

Điểm đáng chú ý không chỉ nằm ở danh sách công cụ, mà ở cách biến việc dùng công cụ thành dữ liệu có thể học được. Bài báo nêu hai bộ dữ liệu quỹ đạo: SearchVL-SFT gồm 36.000 quỹ đạo cho tinh chỉnh có giám sát, còn SearchVL-RL gồm 8.000 quỹ đạo cho học tăng cường .

Ngoài ra, nhóm tác giả giới thiệu Multi-round Fault-Aware GRPO, một phương pháp huấn luyện cho các quỹ đạo dùng công cụ nhiều vòng, nơi hành động trung gian có thể thất bại, chỉ giúp một phần hoặc cần được sửa ở vòng sau .

Với tác tử tìm kiếm đa phương thức, biết vật thể trong ảnh là gì chỉ là bước đầu. Hệ thống còn phải học khi nào nên tìm kiếm, khi nào nên phóng to hoặc cắt ảnh, khi nào đọc chữ bằng OCR và khi nào dừng thu thập bằng chứng. OpenSearch-VL đóng gói các lựa chọn này thành ví dụ huấn luyện thay vì để quy trình gọi công cụ nằm trong một hộp đen .

Hiệu năng: hứa hẹn, nhưng chưa nên vội gọi là ngang hàng sản phẩm đóng

Con số gây chú ý là mức cải thiện trung bình hơn 10 điểm phần trăm trên bảy benchmark tìm kiếm sâu đa phương thức; bài báo cũng nói OpenSearch-VL có thể so sánh với các mô hình thương mại nguồn đóng hàng đầu ở một số tác vụ .

Nhưng từ đó đi thẳng đến kết luận ngang OpenAI hoặc Google trong sản phẩm thực tế là quá sớm. Bằng chứng hiện có chủ yếu là bài báo của nhóm tác giả và tin ra mắt, chưa phải một kết quả tái lập độc lập hay kiểm toán công khai theo kiểu đối đầu tương đương giữa các hệ triển khai sản xuất . Vì vậy, nên xem OpenSearch-VL là một hướng đi kỹ thuật đáng chú ý nhưng vẫn cần kiểm chứng về độ ổn định, độ trễ, an toàn và khả năng hồi phục khi chuỗi tìm kiếm dài gặp lỗi.

So với OpenAI và Google: điểm chắc chắn nhất là tính mở

Nếu đặt cạnh các hệ đa phương thức thương mại của OpenAI và Google, khác biệt đã được xác nhận rõ nhất là mức độ mở. OpenSearch-VL được trình bày như một công thức và phương án huấn luyện nguồn mở; các tài liệu được trích dẫn không cho thấy những sản phẩm đóng kia công bố quy trình huấn luyện tương đương để cộng đồng soi, tái lập hoặc sửa lỗi .

Điều này khiến OpenSearch-VL đặc biệt hữu ích với nhà nghiên cứu và đội kỹ thuật muốn xem tác tử được huấn luyện thế nào, quỹ đạo dùng công cụ được dựng ra sao và lỗi trong suy luận hình ảnh nhiều bước thường xuất hiện ở đâu. Nói ngắn gọn: đây là đối thủ mở nghiêm túc về mặt nghiên cứu, không phải bằng chứng cuối cùng rằng hệ mở đã vượt các sản phẩm thương mại đóng .

Điều cần theo dõi tiếp

Ba phép thử sẽ đáng giá hơn khẩu hiệu ra mắt: nhóm độc lập có tái lập được kết quả benchmark không; công thức có hoạt động ngoài các miền trong bài đánh giá không; và tác tử có xử lý lỗi công cụ đủ bền trong các phiên tìm kiếm dài, phức tạp không.

Cho đến khi có thêm kiểm chứng, đóng góp lớn nhất của OpenSearch-VL là tính minh bạch. Nó đưa ra một khuôn mẫu cụ thể để cộng đồng AI xây dựng và thử nghiệm tác tử tìm kiếm đa phương thức, đồng thời tạo cơ sở rõ hơn để đo xem hệ mở có thể thu hẹp khoảng cách với các sản phẩm AI tìm kiếm nguồn đóng đến đâu .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "OpenSearch-VL của Tencent là gì? Công thức mở cho AI biết tự đi tìm bằng chứng" là gì?

OpenSearch VL là công thức huấn luyện nguồn mở cho tác tử tìm kiếm AI đa phương thức, được nộp lên arXiv ngày 6/5/2026.

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Điểm khác biệt rõ nhất so với các hệ thương mại đóng của OpenAI và Google là tính minh bạch, còn ưu thế sản phẩm thực tế vẫn cần kiểm chứng độc lập.

Nguồn

← Back to Trending