studioglobal
Trendthemen auf Entdecken
AntwortenVeröffentlicht3 Quellen

Tencent veröffentlicht OpenSearch-VL: Offener Bauplan für multimodale KI-Suchagenten

Tencent hat OpenSearch VL veröffentlicht, ein Open Source Framework beziehungsweise eine „Recipe“ für multimodale Suchagenten [1][3]. Die Agenten sollen nicht nur Bilder verstehen, sondern aktiv Informationen über Websuche, Reverse Image Search, OCR und Bildbearbeitungswerkzeuge einholen [3].

3450
# Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. #### Minghan Xu. Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. The 2026 la
# Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide# Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. #### Minghan Xu. Open-Source AI Agent Frameworks 2026: Complete Developer Comparison Guide. The 2026 landscape offers mature, production-ready options across different architectural approaches, each optimized for specific use cases and team reOpen-Source AI Agent Frameworks 2026: Complete Developer ...

Tencent hat mit OpenSearch-VL ein neues Open-Source-Framework für sogenannte multimodale KI-Suchagenten vorgestellt. Gemeint sind Systeme, die nicht nur Text verarbeiten, sondern auch Bilder analysieren und bei Bedarf externe Werkzeuge einsetzen — etwa Websuche, Texterkennung in Bildern oder Bildverbesserung. Das Projekt wird als offene „Recipe“, also als nachvollziehbarer Bauplan, für fortgeschrittene multimodale Suchagenten beschrieben [1][2][3].

Was OpenSearch-VL leisten soll

Der zentrale Unterschied zu einem klassischen Bild-Frage-Antwort-Modell: OpenSearch-VL soll nicht passiv auf ein einzelnes Bild reagieren, sondern aktiv Belege sammeln. Dafür kann der Agent laut Bericht und Paper mehrere Werkzeuge nutzen, darunter:

  • Websuche,
  • umgekehrte Bildsuche,
  • OCR, also Texterkennung in Bildern,
  • Zuschneiden von Bildausschnitten,
  • Schärfen,
  • Super-Resolution,
  • Perspektivkorrektur [3].

Das ist besonders relevant für Aufgaben, bei denen ein Bild allein nicht reicht: etwa wenn ein Objekt identifiziert, ein Schild gelesen, ein Ort eingeordnet oder eine visuelle Spur mit Webinformationen abgeglichen werden muss.

Wer dahintersteht

Das Projekt kommt von Tencent Hunyuan; laut Paper und früher Berichterstattung sind auch Forschende beziehungsweise Partner von UCLA und der Chinese University of Hong Kong beteiligt [1][3]. Das Paper trägt den Titel „OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents“ und wurde am 6. Mai 2026 bei arXiv eingereicht, der in der KI-Forschung viel genutzten Plattform für wissenschaftliche Preprints [2].

Der technische Ansatz in Kürze

OpenSearch-VL umfasst nicht nur ein Modell, sondern auch Trainingsdaten und Trainingsmethoden. Genannt werden unter anderem:

  • SearchVL-SFT mit 36.000 Trajektorien für überwachtes Feintuning,
  • SearchVL-RL mit 8.000 Trajektorien für Reinforcement Learning,
  • eine Methode namens Multi-round Fault-Aware GRPO, die darauf ausgelegt ist, auch aus teilweise fehlgeschlagenen Werkzeug-Nutzungsabläufen zu lernen [3].

„Trajektorien“ meint hier vereinfacht die Abfolge von Schritten, die ein Agent beim Lösen einer Aufgabe durchläuft — also zum Beispiel: Bild prüfen, Websuche starten, Text per OCR auslesen, Ergebnis abgleichen und eine Antwort formulieren.

Vergleich mit OpenAI und Google

Der wichtigste Unterschied liegt weniger in einer einzelnen Funktion als in der Offenheit. Vergleichbare multimodale Such- und Rechercheagenten von OpenAI und Google sind weitgehend proprietär. OpenSearch-VL wird dagegen als offener Ansatz positioniert, bei dem Trainingsdaten, Code und Modellgewichte veröffentlicht werden sollen, damit Forschende das System reproduzieren, prüfen und weiterentwickeln können [3].

Bei der Leistung meldet Tencent deutliche Ergebnisse: In den berichteten Tests habe OpenSearch-VL die Durchschnittsleistung über sieben multimodale Deep-Search-Benchmarks hinweg um mehr als zehn Prozentpunkte verbessert und in einigen Aufgaben mit führenden geschlossenen kommerziellen Modellen mithalten können [3].

Warum Vorsicht angebracht ist

So interessant OpenSearch-VL für die offene KI-Forschung ist: Die Vergleiche mit OpenAI und Google sollte man derzeit nicht als endgültiges Urteil lesen. Die öffentlich verfügbare Evidenz stammt vor allem aus dem arXiv-Paper und früher Berichterstattung. Ob unabhängige Evaluierungen die Leistungsangaben bestätigen, ist bislang nicht klar [1][2][3].

Kurz gesagt: OpenSearch-VL ist Tencents offener Bauplan für multimodale Suchagenten — mit ambitionierten Leistungsansprüchen, einem klaren Fokus auf Werkzeugnutzung und einem offenen Gegenentwurf zu geschlossenen Systemen. Ob daraus tatsächlich ein dauerhaft konkurrenzfähiger Standard entsteht, müssen unabhängige Tests erst zeigen.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Wichtige Erkenntnisse

  • Tencent hat OpenSearch VL veröffentlicht, ein Open Source Framework beziehungsweise eine „Recipe“ für multimodale Suchagenten [1][3].
  • Die Agenten sollen nicht nur Bilder verstehen, sondern aktiv Informationen über Websuche, Reverse Image Search, OCR und Bildbearbeitungswerkzeuge einholen [3].
  • Das Paper wurde am 6. Mai 2026 bei arXiv eingereicht und beschreibt OpenSearch VL als „An Open Recipe for Frontier Multimodal Search Agents“ [2].
  • Tencent Hunyuan arbeitet dabei laut Paper und früher Berichterstattung unter anderem mit UCLA und der Chinese University of Hong Kong zusammen [1][3].

Unterstützende Visuals

Abstract digital illustration of open-source AI agent frameworks with connected components
Open-Source AI Agent Frameworks 2026: Complete Developer Comparison GuideA generic AI-agent framework illustration; OpenSearch-VL applies the open-source approach to multimodal search agents.Open-Source AI Agent Frameworks 2026: Complete Developer ...
Pipecat - Open-source framework for voice and multimodal conversational AI. GitHub stars · Vocode - Open-source library for building voice-based LLM agents.
Pipecat - Open-source framework for voice and multimodal conversational AIPipecat - Open-source framework for voice and multimodal conversational AI. GitHub stars · Vocode - Open-source library for building voice-based LLM agents.GitHub - Zijian-Ni/awesome-ai-agents-2026: 🤖 A curated list of AI Agent frameworks, tools, platforms, and resources for 2026 — the year agents went mainstream · GitHub

Die Leute fragen auch

Wie lautet die kurze Antwort auf „Tencent veröffentlicht OpenSearch-VL: Offener Bauplan für multimodale KI-Suchagenten“?

Tencent hat OpenSearch VL veröffentlicht, ein Open Source Framework beziehungsweise eine „Recipe“ für multimodale Suchagenten [1][3].

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Tencent hat OpenSearch VL veröffentlicht, ein Open Source Framework beziehungsweise eine „Recipe“ für multimodale Suchagenten [1][3]. Die Agenten sollen nicht nur Bilder verstehen, sondern aktiv Informationen über Websuche, Reverse Image Search, OCR und Bildbearbeitungswerkzeuge einholen [3].

Was soll ich als nächstes in der Praxis tun?

Das Paper wurde am 6. Mai 2026 bei arXiv eingereicht und beschreibt OpenSearch VL als „An Open Recipe for Frontier Multimodal Search Agents“ [2].

Welches verwandte Thema sollte ich als nächstes untersuchen?

Fahren Sie mit „Multistabilität: Mehr Bandbreite, aber nicht automatisch mehr Spitzenleistung“ für einen anderen Blickwinkel und zusätzliche Zitate fort.

Zugehörige Seite öffnen

Womit soll ich das vergleichen?

Vergleichen Sie diese Antwort mit „KI für echte Hürden: Vier Accessibility-Ideen aus Apples Swift Student Challenge“.

Zugehörige Seite öffnen

Setzen Sie Ihre Recherche fort

Quellen