ОтветыОпубликовано8 мая 2026Last edited 8 мая 20263 источники

Tencent открыла OpenSearch-VL — фреймворк для ИИ-агентов, которые ищут по тексту и изображениям

OpenSearch VL — открытый «рецепт» для мультимодальных поисковых ИИ агентов, способных работать с изображениями, веб поиском, OCR, обратным поиском по картинкам и обработкой изображений [3]. Работа OpenSearch VL была отправлена на arXiv 6 мая 2026 года; проект связан с Tencent Hunyuan и соавторами из UCLA и The Chine...

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

4070

# Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide# Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. #### Minghan Xu. Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. The 2026 landscape offers mature, production-ready options across different architectural approaches, each optimized for specific use cases and team reOpen-Source AI Agent Frameworks 2026: Complete Developer ...

Короткий ответ: Tencent выпустила OpenSearch-VL — открытый фреймворк, или «рецепт», для создания мультимодальных поисковых ИИ-агентов. Такой агент должен уметь рассуждать в несколько шагов: смотреть на изображение, искать информацию в интернете, распознавать текст на картинке, запускать обратный поиск по изображению и применять базовые инструменты обработки картинки. Tencent позиционирует OpenSearch-VL как более открытый путь к системам класса мультимодального поиска и исследования, которые у OpenAI и Google в основном остаются закрытыми; при этом заявления о сопоставимом качестве пока лучше считать предварительными ^[1]^[2]^[3].

Что такое OpenSearch-VL

OpenSearch-VL описан авторами как “An Open Recipe for Frontier Multimodal Search Agents”; страница arXiv указывает, что работа была отправлена 6 мая 2026 года ^[2]. Проект связывают с Tencent Hunyuan, а среди участников и соавторов в материалах фигурируют Калифорнийский университет в Лос-Анджелесе (UCLA) и The Chinese University of Hong Kong ^[1]^[3].

В практическом смысле это не просто модель, которой показывают картинку и задают вопрос. Идея OpenSearch-VL — научить агента самому собирать недостающие доказательства. В описании перечислены внешние инструменты: веб-поиск, обратный поиск по изображениям, OCR для распознавания текста, кадрирование, повышение резкости, суперразрешение и коррекция перспективы ^[3].

Почему это важно

Многие мультимодальные модели хорошо описывают изображение, но могут «упереться» в то, чего нет прямо на картинке: мелкий текст, неизвестный объект, место, дата, контекст события. Агентный подход предполагает другой сценарий: модель не делает единственную догадку, а строит цепочку действий — например, увеличить фрагмент, распознать надпись, проверить ее через поиск и только затем сформулировать ответ.

Как Tencent обучала систему

В опубликованном описании проекта указаны два набора траекторий для обучения: SearchVL-SFT с 36 000 траекторий для supervised fine-tuning и SearchVL-RL с 8 000 траекторий для обучения с подкреплением ^[3]. Здесь «траектория» — это последовательность шагов агента: какой инструмент он выбрал, какие данные получил и как продвинулся к ответу.

Отдельно Tencent описывает метод Multi-round Fault-Aware GRPO. Его смысл, по заявлению авторов, — учить агента не только на идеально успешных примерах, но и на частично неудачных попытках использования инструментов, чтобы система лучше восстанавливалась после ошибок ^[3].

Сравнение с OpenAI и Google

Главная заявленная разница — открытость. Сопоставимые мультимодальные поисковые или исследовательские агенты OpenAI и Google в основном являются проприетарными системами: пользователи видят интерфейс и результаты, но не получают полноценного доступа к рецепту обучения. OpenSearch-VL, напротив, позиционируется как проект с публикацией обучающих данных, кода и весов модели, чтобы исследователи могли воспроизводить и улучшать систему ^[3].

По производительности Tencent заявляет, что OpenSearch-VL улучшил средний результат более чем на 10 процентных пунктов на семи мультимодальных deep-search бенчмарках и в отдельных задачах был сопоставим с ведущими закрытыми коммерческими моделями ^[3]. Это звучит как попытка сократить разрыв с системами уровня OpenAI и Google, но не доказывает, что OpenSearch-VL универсально их превосходит.

Что стоит держать в уме

Пока выводы лучше читать с осторожностью. Публичная доказательная база в основном состоит из arXiv-работы и ранних публикаций о релизе, а не из широкого набора независимых тестов ^[1]^[2]^[3]. Поэтому формула «открытая альтернатива OpenAI и Google» здесь уместна прежде всего как описание замысла и позиционирования, а не как окончательный вердикт рынка.

Итог: OpenSearch-VL — это новая открытая попытка собрать полный стек для мультимодальных поисковых агентов: данные, обучение, работу с инструментами и оценку качества. Если заявленная открытость будет реализована в удобной для сообщества форме, проект может стать важной отправной точкой для исследователей и разработчиков, которым нужны воспроизводимые агенты для задач с изображениями и поиском.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

OpenSearch VL — открытый «рецепт» для мультимодальных поисковых ИИ агентов, способных работать с изображениями, веб поиском, OCR, обратным поиском по картинкам и обработкой изображений [3].
Работа OpenSearch VL была отправлена на arXiv 6 мая 2026 года; проект связан с Tencent Hunyuan и соавторами из UCLA и The Chinese University of Hong Kong [1][2][3].
Система нацелена на многошаговое рассуждение с инструментами, а не на простой ответ по одному изображению [3].
Tencent заявляет прирост среднего результата более чем на 10 процентных пунктов на семи мультимодальных deep search бенчмарках и сопоставимость с ведущими закрытыми коммерческими моделями в отдельных задачах [3].

Поддерживающие визуалы

Abstract digital illustration of open-source AI agent frameworks with connected components — Open-Source AI Agent Frameworks 2026: Complete Developer Comparison GuideA generic AI-agent framework illustration; OpenSearch-VL applies the open-source approach to multimodal search agents.Open-Source AI Agent Frameworks 2026: Complete Developer ...

Pipecat - Open-source framework for voice and multimodal conversational AIPipecat - Open-source framework for voice and multimodal conversational AI. GitHub stars · Vocode - Open-source library for building voice-based LLM agents.GitHub - Zijian-Ni/awesome-ai-agents-2026: 🤖 A curated list of AI Agent frameworks, tools, platforms, and resources for 2026 — the year agents went mainstream · GitHub

Люди также спрашивают

Каков краткий ответ на вопрос «Tencent открыла OpenSearch-VL — фреймворк для ИИ-агентов, которые ищут по тексту и изображениям»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Система нацелена на многошаговое рассуждение с инструментами, а не на простой ответ по одному изображению [3].

Какую связанную тему мне следует изучить дальше?

Продолжайте с «Цикл халвинга биткоина не умер — теперь темп задают ETF», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «ИИ для доступности: четыре идеи победителей Apple Swift Student Challenge 2026».

Открыть связанную страницу

Продолжайте свое исследование

Matt Hogan: Institutional adoption is ending the four-year cycle, Bitcoin halving is losing significance, and covered call strategies are reshaping investment | Empire. With a deep

Цикл халвинга биткоина не умер — теперь темп задают ETF

Четырёхлетний цикл биткоина не умер: рынок всё чаще ведут ETF

What are some AI powered accessibility apps created by Apple’s 2026 Swift Student Challenge winners, and how do they solve real world proble

ИИ для доступности: четыре идеи победителей Apple Swift Student Challenge 2026

Как победители Swift Student Challenge 2026 применили ИИ для доступных приложений

NVIDIA Just Invested $2 Billion to Build the First AI Factories DailyNoons 106 subscribers 4 likes 414 views 1 Apr 2026 NVIDIA just made a **massive move in the AI infrastructure r

Сначала гигаватты, потом серверы: что сделка Nvidia и IREN меняет в дата-центрах для ИИ

Сначала гигаватты, потом серверы: сделка Nvidia и IREN меняет правила для дата-центров ИИ

JPMorgan forecasts Strategy's Bitcoin acquisitions could hit $30 billion by 2026, with 145834 BTC bought this year alone, valued at $11

Прогноз JPMorgan на $30 млрд: как Strategy собирается покупать биткоин

JPMorgan допускает покупки Bitcoin на $30 млрд: что стоит за планом Strategy

Источники

[1] OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agentsarxiv.org
Multimodal Search Agents Shawn Chen1,2, Kaituo Feng3, Hangting Chen1, Wenxuan Huang3, Dasen Dai3, Quanxin Shou2,4 Yunlong Lin3, Xiangyu Yue3, Shenghua Gao4, Tianyu Pang1,†
[2] An Open Recipe for Frontier Multimodal Search Agents - arXivarxiv.org
Computer Science Computer Vision and Pattern Recognition arXiv:2605.05185 (cs) [Submitted on 6 May 2026]
[3] Tencent Releases OpenSearch-VL: A Comprehensive Solution for ...news.aibase.com
Tencent Releases OpenSearch-VL: A Comprehensive Solution for Open-Source Multimodal Deep Search Agent Published in Latest AI NewsTime :May 7, 2026Read :6minute With the rapid development of multimodal large language models (MLLMs), how to enable models to e...

Популярное в «Открыть»

ОтветыОпубликовано8 мая 2026Last edited 8 мая 20263 источники

Tencent открыла OpenSearch-VL — фреймворк для ИИ-агентов, которые ищут по тексту и изображениям

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

4070

Что такое OpenSearch-VL

Почему это важно

Как Tencent обучала систему

Сравнение с OpenAI и Google

Что стоит держать в уме

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

OpenSearch VL — открытый «рецепт» для мультимодальных поисковых ИИ агентов, способных работать с изображениями, веб поиском, OCR, обратным поиском по картинкам и обработкой изображений [3].
Работа OpenSearch VL была отправлена на arXiv 6 мая 2026 года; проект связан с Tencent Hunyuan и соавторами из UCLA и The Chinese University of Hong Kong [1][2][3].
Система нацелена на многошаговое рассуждение с инструментами, а не на простой ответ по одному изображению [3].
Tencent заявляет прирост среднего результата более чем на 10 процентных пунктов на семи мультимодальных deep search бенчмарках и сопоставимость с ведущими закрытыми коммерческими моделями в отдельных задачах [3].

Поддерживающие визуалы

Люди также спрашивают

Каков краткий ответ на вопрос «Tencent открыла OpenSearch-VL — фреймворк для ИИ-агентов, которые ищут по тексту и изображениям»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «ИИ для доступности: четыре идеи победителей Apple Swift Student Challenge 2026».

Открыть связанную страницу

Продолжайте свое исследование

Цикл халвинга биткоина не умер — теперь темп задают ETF

Четырёхлетний цикл биткоина не умер: рынок всё чаще ведут ETF

ИИ для доступности: четыре идеи победителей Apple Swift Student Challenge 2026

Как победители Swift Student Challenge 2026 применили ИИ для доступных приложений

Сначала гигаватты, потом серверы: что сделка Nvidia и IREN меняет в дата-центрах для ИИ

Сначала гигаватты, потом серверы: сделка Nvidia и IREN меняет правила для дата-центров ИИ

Прогноз JPMorgan на $30 млрд: как Strategy собирается покупать биткоин

JPMorgan допускает покупки Bitcoin на $30 млрд: что стоит за планом Strategy

Источники

[1] OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agentsarxiv.org
Multimodal Search Agents Shawn Chen1,2, Kaituo Feng3, Hangting Chen1, Wenxuan Huang3, Dasen Dai3, Quanxin Shou2,4 Yunlong Lin3, Xiangyu Yue3, Shenghua Gao4, Tianyu Pang1,†
[2] An Open Recipe for Frontier Multimodal Search Agents - arXivarxiv.org
Computer Science Computer Vision and Pattern Recognition arXiv:2605.05185 (cs) [Submitted on 6 May 2026]
[3] Tencent Releases OpenSearch-VL: A Comprehensive Solution for ...news.aibase.com
Tencent Releases OpenSearch-VL: A Comprehensive Solution for Open-Source Multimodal Deep Search Agent Published in Latest AI NewsTime :May 7, 2026Read :6minute With the rapid development of multimodal large language models (MLLMs), how to enable models to e...

Популярное в «Открыть»

ОтветыОпубликовано8 мая 2026Last edited 8 мая 20263 источники

Tencent открыла OpenSearch-VL — фреймворк для ИИ-агентов, которые ищут по тексту и изображениям

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

4070

Что такое OpenSearch-VL

Почему это важно

Как Tencent обучала систему

Сравнение с OpenAI и Google

Что стоит держать в уме

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

OpenSearch VL — открытый «рецепт» для мультимодальных поисковых ИИ агентов, способных работать с изображениями, веб поиском, OCR, обратным поиском по картинкам и обработкой изображений [3].
Работа OpenSearch VL была отправлена на arXiv 6 мая 2026 года; проект связан с Tencent Hunyuan и соавторами из UCLA и The Chinese University of Hong Kong [1][2][3].
Система нацелена на многошаговое рассуждение с инструментами, а не на простой ответ по одному изображению [3].
Tencent заявляет прирост среднего результата более чем на 10 процентных пунктов на семи мультимодальных deep search бенчмарках и сопоставимость с ведущими закрытыми коммерческими моделями в отдельных задачах [3].

Поддерживающие визуалы

Люди также спрашивают

Каков краткий ответ на вопрос «Tencent открыла OpenSearch-VL — фреймворк для ИИ-агентов, которые ищут по тексту и изображениям»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «ИИ для доступности: четыре идеи победителей Apple Swift Student Challenge 2026».

Открыть связанную страницу

Продолжайте свое исследование

Источники

[1] OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agentsarxiv.org
Multimodal Search Agents Shawn Chen1,2, Kaituo Feng3, Hangting Chen1, Wenxuan Huang3, Dasen Dai3, Quanxin Shou2,4 Yunlong Lin3, Xiangyu Yue3, Shenghua Gao4, Tianyu Pang1,†
[2] An Open Recipe for Frontier Multimodal Search Agents - arXivarxiv.org
Computer Science Computer Vision and Pattern Recognition arXiv:2605.05185 (cs) [Submitted on 6 May 2026]
[3] Tencent Releases OpenSearch-VL: A Comprehensive Solution for ...news.aibase.com
Tencent Releases OpenSearch-VL: A Comprehensive Solution for Open-Source Multimodal Deep Search Agent Published in Latest AI NewsTime :May 7, 2026Read :6minute With the rapid development of multimodal large language models (MLLMs), how to enable models to e...