Короткий ответ: Tencent выпустила OpenSearch-VL — открытый фреймворк, или «рецепт», для создания мультимодальных поисковых ИИ-агентов. Такой агент должен уметь рассуждать в несколько шагов: смотреть на изображение, искать информацию в интернете, распознавать текст на картинке, запускать обратный поиск по изображению и применять базовые инструменты обработки картинки. Tencent позиционирует OpenSearch-VL как более открытый путь к системам класса мультимодального поиска и исследования, которые у OpenAI и Google в основном остаются закрытыми; при этом заявления о сопоставимом качестве пока лучше считать предварительными [1][
2][
3].
Что такое OpenSearch-VL
OpenSearch-VL описан авторами как “An Open Recipe for Frontier Multimodal Search Agents”; страница arXiv указывает, что работа была отправлена 6 мая 2026 года [2]. Проект связывают с Tencent Hunyuan, а среди участников и соавторов в материалах фигурируют Калифорнийский университет в Лос-Анджелесе (UCLA) и The Chinese University of Hong Kong [
1][
3].
В практическом смысле это не просто модель, которой показывают картинку и задают вопрос. Идея OpenSearch-VL — научить агента самому собирать недостающие доказательства. В описании перечислены внешние инструменты: веб-поиск, обратный поиск по изображениям, OCR для распознавания текста, кадрирование, повышение резкости, суперразрешение и коррекция перспективы [3].
Почему это важно
Многие мультимодальные модели хорошо описывают изображение, но могут «упереться» в то, чего нет прямо на картинке: мелкий текст, неизвестный объект, место, дата, контекст события. Агентный подход предполагает другой сценарий: модель не делает единственную догадку, а строит цепочку действий — например, увеличить фрагмент, распознать надпись, проверить ее через поиск и только затем сформулировать ответ.
Как Tencent обучала систему
В опубликованном описании проекта указаны два набора траекторий для обучения: SearchVL-SFT с 36 000 траекторий для supervised fine-tuning и SearchVL-RL с 8 000 траекторий для обучения с подкреплением [3]. Здесь «траектория» — это последовательность шагов агента: какой инструмент он выбрал, какие данные получил и как продвинулся к ответу.
Отдельно Tencent описывает метод Multi-round Fault-Aware GRPO. Его смысл, по заявлению авторов, — учить агента не только на идеально успешных примерах, но и на частично неудачных попытках использования инструментов, чтобы система лучше восстанавливалась после ошибок [3].
Сравнение с OpenAI и Google
Главная заявленная разница — открытость. Сопоставимые мультимодальные поисковые или исследовательские агенты OpenAI и Google в основном являются проприетарными системами: пользователи видят интерфейс и результаты, но не получают полноценного доступа к рецепту обучения. OpenSearch-VL, напротив, позиционируется как проект с публикацией обучающих данных, кода и весов модели, чтобы исследователи могли воспроизводить и улучшать систему [3].
По производительности Tencent заявляет, что OpenSearch-VL улучшил средний результат более чем на 10 процентных пунктов на семи мультимодальных deep-search бенчмарках и в отдельных задачах был сопоставим с ведущими закрытыми коммерческими моделями [3]. Это звучит как попытка сократить разрыв с системами уровня OpenAI и Google, но не доказывает, что OpenSearch-VL универсально их превосходит.
Что стоит держать в уме
Пока выводы лучше читать с осторожностью. Публичная доказательная база в основном состоит из arXiv-работы и ранних публикаций о релизе, а не из широкого набора независимых тестов [1][
2][
3]. Поэтому формула «открытая альтернатива OpenAI и Google» здесь уместна прежде всего как описание замысла и позиционирования, а не как окончательный вердикт рынка.
Итог: OpenSearch-VL — это новая открытая попытка собрать полный стек для мультимодальных поисковых агентов: данные, обучение, работу с инструментами и оценку качества. Если заявленная открытость будет реализована в удобной для сообщества форме, проект может стать важной отправной точкой для исследователей и разработчиков, которым нужны воспроизводимые агенты для задач с изображениями и поиском.





