AntwortenVeröffentlicht8. Mai 2026Last edited 8. Mai 20263 Quellen

Tencent veröffentlicht OpenSearch-VL: Offener Bauplan für multimodale KI-Suchagenten

Tencent hat OpenSearch VL veröffentlicht, ein Open Source Framework beziehungsweise eine „Recipe“ für multimodale Suchagenten [1][3]. Die Agenten sollen nicht nur Bilder verstehen, sondern aktiv Informationen über Websuche, Reverse Image Search, OCR und Bildbearbeitungswerkzeuge einholen [3].

Suchen und Fakten prüfen mit Studio Global AI Mehr von Entdecken ansehen

3450

# Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide# Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. #### Minghan Xu. Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. The 2026 landscape offers mature, production-ready options across different architectural approaches, each optimized for specific use cases and team reOpen-Source AI Agent Frameworks 2026: Complete Developer ...

Tencent hat mit OpenSearch-VL ein neues Open-Source-Framework für sogenannte multimodale KI-Suchagenten vorgestellt. Gemeint sind Systeme, die nicht nur Text verarbeiten, sondern auch Bilder analysieren und bei Bedarf externe Werkzeuge einsetzen — etwa Websuche, Texterkennung in Bildern oder Bildverbesserung. Das Projekt wird als offene „Recipe“, also als nachvollziehbarer Bauplan, für fortgeschrittene multimodale Suchagenten beschrieben ^[1]^[2]^[3].

Was OpenSearch-VL leisten soll

Der zentrale Unterschied zu einem klassischen Bild-Frage-Antwort-Modell: OpenSearch-VL soll nicht passiv auf ein einzelnes Bild reagieren, sondern aktiv Belege sammeln. Dafür kann der Agent laut Bericht und Paper mehrere Werkzeuge nutzen, darunter:

Websuche,
umgekehrte Bildsuche,
OCR, also Texterkennung in Bildern,
Zuschneiden von Bildausschnitten,
Schärfen,
Super-Resolution,
Perspektivkorrektur ^[3].

Das ist besonders relevant für Aufgaben, bei denen ein Bild allein nicht reicht: etwa wenn ein Objekt identifiziert, ein Schild gelesen, ein Ort eingeordnet oder eine visuelle Spur mit Webinformationen abgeglichen werden muss.

Wer dahintersteht

Das Projekt kommt von Tencent Hunyuan; laut Paper und früher Berichterstattung sind auch Forschende beziehungsweise Partner von UCLA und der Chinese University of Hong Kong beteiligt ^[1]^[3]. Das Paper trägt den Titel „OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents“ und wurde am 6. Mai 2026 bei arXiv eingereicht, der in der KI-Forschung viel genutzten Plattform für wissenschaftliche Preprints ^[2].

Der technische Ansatz in Kürze

OpenSearch-VL umfasst nicht nur ein Modell, sondern auch Trainingsdaten und Trainingsmethoden. Genannt werden unter anderem:

SearchVL-SFT mit 36.000 Trajektorien für überwachtes Feintuning,
SearchVL-RL mit 8.000 Trajektorien für Reinforcement Learning,
eine Methode namens Multi-round Fault-Aware GRPO, die darauf ausgelegt ist, auch aus teilweise fehlgeschlagenen Werkzeug-Nutzungsabläufen zu lernen ^[3].

„Trajektorien“ meint hier vereinfacht die Abfolge von Schritten, die ein Agent beim Lösen einer Aufgabe durchläuft — also zum Beispiel: Bild prüfen, Websuche starten, Text per OCR auslesen, Ergebnis abgleichen und eine Antwort formulieren.

Vergleich mit OpenAI und Google

Der wichtigste Unterschied liegt weniger in einer einzelnen Funktion als in der Offenheit. Vergleichbare multimodale Such- und Rechercheagenten von OpenAI und Google sind weitgehend proprietär. OpenSearch-VL wird dagegen als offener Ansatz positioniert, bei dem Trainingsdaten, Code und Modellgewichte veröffentlicht werden sollen, damit Forschende das System reproduzieren, prüfen und weiterentwickeln können ^[3].

Bei der Leistung meldet Tencent deutliche Ergebnisse: In den berichteten Tests habe OpenSearch-VL die Durchschnittsleistung über sieben multimodale Deep-Search-Benchmarks hinweg um mehr als zehn Prozentpunkte verbessert und in einigen Aufgaben mit führenden geschlossenen kommerziellen Modellen mithalten können ^[3].

Warum Vorsicht angebracht ist

So interessant OpenSearch-VL für die offene KI-Forschung ist: Die Vergleiche mit OpenAI und Google sollte man derzeit nicht als endgültiges Urteil lesen. Die öffentlich verfügbare Evidenz stammt vor allem aus dem arXiv-Paper und früher Berichterstattung. Ob unabhängige Evaluierungen die Leistungsangaben bestätigen, ist bislang nicht klar ^[1]^[2]^[3].

Kurz gesagt: OpenSearch-VL ist Tencents offener Bauplan für multimodale Suchagenten — mit ambitionierten Leistungsansprüchen, einem klaren Fokus auf Werkzeugnutzung und einem offenen Gegenentwurf zu geschlossenen Systemen. Ob daraus tatsächlich ein dauerhaft konkurrenzfähiger Standard entsteht, müssen unabhängige Tests erst zeigen.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Wichtige Erkenntnisse

Tencent hat OpenSearch VL veröffentlicht, ein Open Source Framework beziehungsweise eine „Recipe“ für multimodale Suchagenten [1][3].
Die Agenten sollen nicht nur Bilder verstehen, sondern aktiv Informationen über Websuche, Reverse Image Search, OCR und Bildbearbeitungswerkzeuge einholen [3].
Das Paper wurde am 6. Mai 2026 bei arXiv eingereicht und beschreibt OpenSearch VL als „An Open Recipe for Frontier Multimodal Search Agents“ [2].
Tencent Hunyuan arbeitet dabei laut Paper und früher Berichterstattung unter anderem mit UCLA und der Chinese University of Hong Kong zusammen [1][3].

Unterstützende Visuals

Abstract digital illustration of open-source AI agent frameworks with connected components — Open-Source AI Agent Frameworks 2026: Complete Developer Comparison GuideA generic AI-agent framework illustration; OpenSearch-VL applies the open-source approach to multimodal search agents.Open-Source AI Agent Frameworks 2026: Complete Developer ...

Pipecat - Open-source framework for voice and multimodal conversational AIPipecat - Open-source framework for voice and multimodal conversational AI. GitHub stars · Vocode - Open-source library for building voice-based LLM agents.GitHub - Zijian-Ni/awesome-ai-agents-2026: 🤖 A curated list of AI Agent frameworks, tools, platforms, and resources for 2026 — the year agents went mainstream · GitHub

Die Leute fragen auch

Wie lautet die kurze Antwort auf „Tencent veröffentlicht OpenSearch-VL: Offener Bauplan für multimodale KI-Suchagenten“?

Tencent hat OpenSearch VL veröffentlicht, ein Open Source Framework beziehungsweise eine „Recipe“ für multimodale Suchagenten [1][3].

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Was soll ich als nächstes in der Praxis tun?

Das Paper wurde am 6. Mai 2026 bei arXiv eingereicht und beschreibt OpenSearch VL als „An Open Recipe for Frontier Multimodal Search Agents“ [2].

Welches verwandte Thema sollte ich als nächstes untersuchen?

Fahren Sie mit „Multistabilität: Mehr Bandbreite, aber nicht automatisch mehr Spitzenleistung“ für einen anderen Blickwinkel und zusätzliche Zitate fort.

Zugehörige Seite öffnen

Womit soll ich das vergleichen?

Vergleichen Sie diese Antwort mit „KI für echte Hürden: Vier Accessibility-Ideen aus Apples Swift Student Challenge“.

Zugehörige Seite öffnen

Setzen Sie Ihre Recherche fort

目前文献中我发现多稳态特性可以拓宽频带，但是缺少对峰值功率的提升。这是否正确？如何解释？你能否搜寻相关文献给予支撑？

Multistabilität: Mehr Bandbreite, aber nicht automatisch mehr Spitzenleistung

Multistabile Energy Harvester: Warum Bandbreite oft steigt, Spitzenleistung aber nicht garantiert ist

What are some AI powered accessibility apps created by Apple’s 2026 Swift Student Challenge winners, and how do they solve real world proble

KI für echte Hürden: Vier Accessibility-Ideen aus Apples Swift Student Challenge

Wie Gewinner der Swift Student Challenge 2026 KI für Barrierefreiheit einsetzen

NVIDIA Just Invested $2 Billion to Build the First AI Factories DailyNoons 106 subscribers 4 likes 414 views 1 Apr 2026 NVIDIA just made a **massive move in the AI infrastructure r

Nvidias IREN-Deal: KI-Rechenzentren werden zu Strom-Megaprojekten

Nvidias 2,1-Milliarden-Wette auf IREN zeigt, wohin KI-Rechenzentren steuern

JPMorgan forecasts Strategy's Bitcoin acquisitions could hit $30 billion by 2026, with 145834 BTC bought this year alone, valued at $11

JPMorgans 30-Milliarden-Dollar-Szenario für Strategy: Es geht nicht nur um Bitcoin

JPMorgans 30-Milliarden-Dollar-Szenario für Strategy, erklärt

Quellen

[1] OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agentsarxiv.org
Multimodal Search Agents Shawn Chen1,2, Kaituo Feng3, Hangting Chen1, Wenxuan Huang3, Dasen Dai3, Quanxin Shou2,4 Yunlong Lin3, Xiangyu Yue3, Shenghua Gao4, Tianyu Pang1,†
[2] An Open Recipe for Frontier Multimodal Search Agents - arXivarxiv.org
Computer Science Computer Vision and Pattern Recognition arXiv:2605.05185 (cs) [Submitted on 6 May 2026]
[3] Tencent Releases OpenSearch-VL: A Comprehensive Solution for ...news.aibase.com
Tencent Releases OpenSearch-VL: A Comprehensive Solution for Open-Source Multimodal Deep Search Agent Published in Latest AI NewsTime :May 7, 2026Read :6minute With the rapid development of multimodal large language models (MLLMs), how to enable models to e...

Trendthemen auf Entdecken

AntwortenVeröffentlicht8. Mai 2026Last edited 8. Mai 20263 Quellen

Tencent veröffentlicht OpenSearch-VL: Offener Bauplan für multimodale KI-Suchagenten

Suchen und Fakten prüfen mit Studio Global AI Mehr von Entdecken ansehen

3450

Was OpenSearch-VL leisten soll

Websuche,
umgekehrte Bildsuche,
OCR, also Texterkennung in Bildern,
Zuschneiden von Bildausschnitten,
Schärfen,
Super-Resolution,
Perspektivkorrektur ^[3].

Wer dahintersteht

Der technische Ansatz in Kürze

OpenSearch-VL umfasst nicht nur ein Modell, sondern auch Trainingsdaten und Trainingsmethoden. Genannt werden unter anderem:

SearchVL-SFT mit 36.000 Trajektorien für überwachtes Feintuning,
SearchVL-RL mit 8.000 Trajektorien für Reinforcement Learning,
eine Methode namens Multi-round Fault-Aware GRPO, die darauf ausgelegt ist, auch aus teilweise fehlgeschlagenen Werkzeug-Nutzungsabläufen zu lernen ^[3].

Vergleich mit OpenAI und Google

Warum Vorsicht angebracht ist

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Wichtige Erkenntnisse

Tencent hat OpenSearch VL veröffentlicht, ein Open Source Framework beziehungsweise eine „Recipe“ für multimodale Suchagenten [1][3].
Die Agenten sollen nicht nur Bilder verstehen, sondern aktiv Informationen über Websuche, Reverse Image Search, OCR und Bildbearbeitungswerkzeuge einholen [3].
Das Paper wurde am 6. Mai 2026 bei arXiv eingereicht und beschreibt OpenSearch VL als „An Open Recipe for Frontier Multimodal Search Agents“ [2].
Tencent Hunyuan arbeitet dabei laut Paper und früher Berichterstattung unter anderem mit UCLA und der Chinese University of Hong Kong zusammen [1][3].

Unterstützende Visuals

Die Leute fragen auch

Wie lautet die kurze Antwort auf „Tencent veröffentlicht OpenSearch-VL: Offener Bauplan für multimodale KI-Suchagenten“?

Tencent hat OpenSearch VL veröffentlicht, ein Open Source Framework beziehungsweise eine „Recipe“ für multimodale Suchagenten [1][3].

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Was soll ich als nächstes in der Praxis tun?

Das Paper wurde am 6. Mai 2026 bei arXiv eingereicht und beschreibt OpenSearch VL als „An Open Recipe for Frontier Multimodal Search Agents“ [2].

Welches verwandte Thema sollte ich als nächstes untersuchen?

Fahren Sie mit „Multistabilität: Mehr Bandbreite, aber nicht automatisch mehr Spitzenleistung“ für einen anderen Blickwinkel und zusätzliche Zitate fort.

Zugehörige Seite öffnen

Womit soll ich das vergleichen?

Vergleichen Sie diese Antwort mit „KI für echte Hürden: Vier Accessibility-Ideen aus Apples Swift Student Challenge“.

Zugehörige Seite öffnen

Setzen Sie Ihre Recherche fort

Multistabilität: Mehr Bandbreite, aber nicht automatisch mehr Spitzenleistung

Multistabile Energy Harvester: Warum Bandbreite oft steigt, Spitzenleistung aber nicht garantiert ist

KI für echte Hürden: Vier Accessibility-Ideen aus Apples Swift Student Challenge

Wie Gewinner der Swift Student Challenge 2026 KI für Barrierefreiheit einsetzen

Nvidias IREN-Deal: KI-Rechenzentren werden zu Strom-Megaprojekten

Nvidias 2,1-Milliarden-Wette auf IREN zeigt, wohin KI-Rechenzentren steuern

JPMorgans 30-Milliarden-Dollar-Szenario für Strategy: Es geht nicht nur um Bitcoin

JPMorgans 30-Milliarden-Dollar-Szenario für Strategy, erklärt

Quellen

[1] OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agentsarxiv.org
Multimodal Search Agents Shawn Chen1,2, Kaituo Feng3, Hangting Chen1, Wenxuan Huang3, Dasen Dai3, Quanxin Shou2,4 Yunlong Lin3, Xiangyu Yue3, Shenghua Gao4, Tianyu Pang1,†
[2] An Open Recipe for Frontier Multimodal Search Agents - arXivarxiv.org
Computer Science Computer Vision and Pattern Recognition arXiv:2605.05185 (cs) [Submitted on 6 May 2026]
[3] Tencent Releases OpenSearch-VL: A Comprehensive Solution for ...news.aibase.com
Tencent Releases OpenSearch-VL: A Comprehensive Solution for Open-Source Multimodal Deep Search Agent Published in Latest AI NewsTime :May 7, 2026Read :6minute With the rapid development of multimodal large language models (MLLMs), how to enable models to e...

Trendthemen auf Entdecken

AntwortenVeröffentlicht8. Mai 2026Last edited 8. Mai 20263 Quellen

Tencent veröffentlicht OpenSearch-VL: Offener Bauplan für multimodale KI-Suchagenten

Suchen und Fakten prüfen mit Studio Global AI Mehr von Entdecken ansehen

3450

Was OpenSearch-VL leisten soll

Websuche,
umgekehrte Bildsuche,
OCR, also Texterkennung in Bildern,
Zuschneiden von Bildausschnitten,
Schärfen,
Super-Resolution,
Perspektivkorrektur ^[3].

Wer dahintersteht

Der technische Ansatz in Kürze

OpenSearch-VL umfasst nicht nur ein Modell, sondern auch Trainingsdaten und Trainingsmethoden. Genannt werden unter anderem:

SearchVL-SFT mit 36.000 Trajektorien für überwachtes Feintuning,
SearchVL-RL mit 8.000 Trajektorien für Reinforcement Learning,
eine Methode namens Multi-round Fault-Aware GRPO, die darauf ausgelegt ist, auch aus teilweise fehlgeschlagenen Werkzeug-Nutzungsabläufen zu lernen ^[3].

Vergleich mit OpenAI und Google

Warum Vorsicht angebracht ist

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Wichtige Erkenntnisse

Tencent hat OpenSearch VL veröffentlicht, ein Open Source Framework beziehungsweise eine „Recipe“ für multimodale Suchagenten [1][3].
Die Agenten sollen nicht nur Bilder verstehen, sondern aktiv Informationen über Websuche, Reverse Image Search, OCR und Bildbearbeitungswerkzeuge einholen [3].
Das Paper wurde am 6. Mai 2026 bei arXiv eingereicht und beschreibt OpenSearch VL als „An Open Recipe for Frontier Multimodal Search Agents“ [2].
Tencent Hunyuan arbeitet dabei laut Paper und früher Berichterstattung unter anderem mit UCLA und der Chinese University of Hong Kong zusammen [1][3].

Unterstützende Visuals

Die Leute fragen auch

Wie lautet die kurze Antwort auf „Tencent veröffentlicht OpenSearch-VL: Offener Bauplan für multimodale KI-Suchagenten“?

Tencent hat OpenSearch VL veröffentlicht, ein Open Source Framework beziehungsweise eine „Recipe“ für multimodale Suchagenten [1][3].

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Was soll ich als nächstes in der Praxis tun?

Das Paper wurde am 6. Mai 2026 bei arXiv eingereicht und beschreibt OpenSearch VL als „An Open Recipe for Frontier Multimodal Search Agents“ [2].

Welches verwandte Thema sollte ich als nächstes untersuchen?

Fahren Sie mit „Multistabilität: Mehr Bandbreite, aber nicht automatisch mehr Spitzenleistung“ für einen anderen Blickwinkel und zusätzliche Zitate fort.

Zugehörige Seite öffnen

Womit soll ich das vergleichen?

Vergleichen Sie diese Antwort mit „KI für echte Hürden: Vier Accessibility-Ideen aus Apples Swift Student Challenge“.

Zugehörige Seite öffnen

Setzen Sie Ihre Recherche fort

Quellen

[1] OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agentsarxiv.org
Multimodal Search Agents Shawn Chen1,2, Kaituo Feng3, Hangting Chen1, Wenxuan Huang3, Dasen Dai3, Quanxin Shou2,4 Yunlong Lin3, Xiangyu Yue3, Shenghua Gao4, Tianyu Pang1,†
[2] An Open Recipe for Frontier Multimodal Search Agents - arXivarxiv.org
Computer Science Computer Vision and Pattern Recognition arXiv:2605.05185 (cs) [Submitted on 6 May 2026]
[3] Tencent Releases OpenSearch-VL: A Comprehensive Solution for ...news.aibase.com
Tencent Releases OpenSearch-VL: A Comprehensive Solution for Open-Source Multimodal Deep Search Agent Published in Latest AI NewsTime :May 7, 2026Read :6minute With the rapid development of multimodal large language models (MLLMs), how to enable models to e...