studioglobal
Популярное в «Открыть»
ОтветыОпубликовано3 источники

Tencent открыла OpenSearch-VL — фреймворк для ИИ-агентов, которые ищут по тексту и изображениям

OpenSearch VL — открытый «рецепт» для мультимодальных поисковых ИИ агентов, способных работать с изображениями, веб поиском, OCR, обратным поиском по картинкам и обработкой изображений [3]. Работа OpenSearch VL была отправлена на arXiv 6 мая 2026 года; проект связан с Tencent Hunyuan и соавторами из UCLA и The Chine...

4070
# Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. #### Minghan Xu. Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. The 2026 la
# Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide# Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. #### Minghan Xu. Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. The 2026 landscape offers mature, production-ready options across different architectural approaches, each optimized for specific use cases and team reOpen-Source AI Agent Frameworks 2026: Complete Developer ...

Короткий ответ: Tencent выпустила OpenSearch-VL — открытый фреймворк, или «рецепт», для создания мультимодальных поисковых ИИ-агентов. Такой агент должен уметь рассуждать в несколько шагов: смотреть на изображение, искать информацию в интернете, распознавать текст на картинке, запускать обратный поиск по изображению и применять базовые инструменты обработки картинки. Tencent позиционирует OpenSearch-VL как более открытый путь к системам класса мультимодального поиска и исследования, которые у OpenAI и Google в основном остаются закрытыми; при этом заявления о сопоставимом качестве пока лучше считать предварительными [1][2][3].

Что такое OpenSearch-VL

OpenSearch-VL описан авторами как “An Open Recipe for Frontier Multimodal Search Agents”; страница arXiv указывает, что работа была отправлена 6 мая 2026 года [2]. Проект связывают с Tencent Hunyuan, а среди участников и соавторов в материалах фигурируют Калифорнийский университет в Лос-Анджелесе (UCLA) и The Chinese University of Hong Kong [1][3].

В практическом смысле это не просто модель, которой показывают картинку и задают вопрос. Идея OpenSearch-VL — научить агента самому собирать недостающие доказательства. В описании перечислены внешние инструменты: веб-поиск, обратный поиск по изображениям, OCR для распознавания текста, кадрирование, повышение резкости, суперразрешение и коррекция перспективы [3].

Почему это важно

Многие мультимодальные модели хорошо описывают изображение, но могут «упереться» в то, чего нет прямо на картинке: мелкий текст, неизвестный объект, место, дата, контекст события. Агентный подход предполагает другой сценарий: модель не делает единственную догадку, а строит цепочку действий — например, увеличить фрагмент, распознать надпись, проверить ее через поиск и только затем сформулировать ответ.

Как Tencent обучала систему

В опубликованном описании проекта указаны два набора траекторий для обучения: SearchVL-SFT с 36 000 траекторий для supervised fine-tuning и SearchVL-RL с 8 000 траекторий для обучения с подкреплением [3]. Здесь «траектория» — это последовательность шагов агента: какой инструмент он выбрал, какие данные получил и как продвинулся к ответу.

Отдельно Tencent описывает метод Multi-round Fault-Aware GRPO. Его смысл, по заявлению авторов, — учить агента не только на идеально успешных примерах, но и на частично неудачных попытках использования инструментов, чтобы система лучше восстанавливалась после ошибок [3].

Сравнение с OpenAI и Google

Главная заявленная разница — открытость. Сопоставимые мультимодальные поисковые или исследовательские агенты OpenAI и Google в основном являются проприетарными системами: пользователи видят интерфейс и результаты, но не получают полноценного доступа к рецепту обучения. OpenSearch-VL, напротив, позиционируется как проект с публикацией обучающих данных, кода и весов модели, чтобы исследователи могли воспроизводить и улучшать систему [3].

По производительности Tencent заявляет, что OpenSearch-VL улучшил средний результат более чем на 10 процентных пунктов на семи мультимодальных deep-search бенчмарках и в отдельных задачах был сопоставим с ведущими закрытыми коммерческими моделями [3]. Это звучит как попытка сократить разрыв с системами уровня OpenAI и Google, но не доказывает, что OpenSearch-VL универсально их превосходит.

Что стоит держать в уме

Пока выводы лучше читать с осторожностью. Публичная доказательная база в основном состоит из arXiv-работы и ранних публикаций о релизе, а не из широкого набора независимых тестов [1][2][3]. Поэтому формула «открытая альтернатива OpenAI и Google» здесь уместна прежде всего как описание замысла и позиционирования, а не как окончательный вердикт рынка.

Итог: OpenSearch-VL — это новая открытая попытка собрать полный стек для мультимодальных поисковых агентов: данные, обучение, работу с инструментами и оценку качества. Если заявленная открытость будет реализована в удобной для сообщества форме, проект может стать важной отправной точкой для исследователей и разработчиков, которым нужны воспроизводимые агенты для задач с изображениями и поиском.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

  • OpenSearch VL — открытый «рецепт» для мультимодальных поисковых ИИ агентов, способных работать с изображениями, веб поиском, OCR, обратным поиском по картинкам и обработкой изображений [3].
  • Работа OpenSearch VL была отправлена на arXiv 6 мая 2026 года; проект связан с Tencent Hunyuan и соавторами из UCLA и The Chinese University of Hong Kong [1][2][3].
  • Система нацелена на многошаговое рассуждение с инструментами, а не на простой ответ по одному изображению [3].
  • Tencent заявляет прирост среднего результата более чем на 10 процентных пунктов на семи мультимодальных deep search бенчмарках и сопоставимость с ведущими закрытыми коммерческими моделями в отдельных задачах [3].

Поддерживающие визуалы

Abstract digital illustration of open-source AI agent frameworks with connected components
Open-Source AI Agent Frameworks 2026: Complete Developer Comparison GuideA generic AI-agent framework illustration; OpenSearch-VL applies the open-source approach to multimodal search agents.Open-Source AI Agent Frameworks 2026: Complete Developer ...
Pipecat - Open-source framework for voice and multimodal conversational AI. GitHub stars · Vocode - Open-source library for building voice-based LLM agents.
Pipecat - Open-source framework for voice and multimodal conversational AIPipecat - Open-source framework for voice and multimodal conversational AI. GitHub stars · Vocode - Open-source library for building voice-based LLM agents.GitHub - Zijian-Ni/awesome-ai-agents-2026: 🤖 A curated list of AI Agent frameworks, tools, platforms, and resources for 2026 — the year agents went mainstream · GitHub

Люди также спрашивают

Каков краткий ответ на вопрос «Tencent открыла OpenSearch-VL — фреймворк для ИИ-агентов, которые ищут по тексту и изображениям»?

OpenSearch VL — открытый «рецепт» для мультимодальных поисковых ИИ агентов, способных работать с изображениями, веб поиском, OCR, обратным поиском по картинкам и обработкой изображений [3].

Какие ключевые моменты необходимо проверить в первую очередь?

OpenSearch VL — открытый «рецепт» для мультимодальных поисковых ИИ агентов, способных работать с изображениями, веб поиском, OCR, обратным поиском по картинкам и обработкой изображений [3]. Работа OpenSearch VL была отправлена на arXiv 6 мая 2026 года; проект связан с Tencent Hunyuan и соавторами из UCLA и The Chinese University of Hong Kong [1][2][3].

Что мне делать дальше на практике?

Система нацелена на многошаговое рассуждение с инструментами, а не на простой ответ по одному изображению [3].

Какую связанную тему мне следует изучить дальше?

Продолжайте с «Цикл халвинга биткоина не умер — теперь темп задают ETF», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

Продолжайте свое исследование

Источники