Tencent hat mit OpenSearch-VL ein neues Open-Source-Framework für sogenannte multimodale KI-Suchagenten vorgestellt. Gemeint sind Systeme, die nicht nur Text verarbeiten, sondern auch Bilder analysieren und bei Bedarf externe Werkzeuge einsetzen — etwa Websuche, Texterkennung in Bildern oder Bildverbesserung. Das Projekt wird als offene „Recipe“, also als nachvollziehbarer Bauplan, für fortgeschrittene multimodale Suchagenten beschrieben [1][
2][
3].
Was OpenSearch-VL leisten soll
Der zentrale Unterschied zu einem klassischen Bild-Frage-Antwort-Modell: OpenSearch-VL soll nicht passiv auf ein einzelnes Bild reagieren, sondern aktiv Belege sammeln. Dafür kann der Agent laut Bericht und Paper mehrere Werkzeuge nutzen, darunter:
- Websuche,
- umgekehrte Bildsuche,
- OCR, also Texterkennung in Bildern,
- Zuschneiden von Bildausschnitten,
- Schärfen,
- Super-Resolution,
- Perspektivkorrektur [
3].
Das ist besonders relevant für Aufgaben, bei denen ein Bild allein nicht reicht: etwa wenn ein Objekt identifiziert, ein Schild gelesen, ein Ort eingeordnet oder eine visuelle Spur mit Webinformationen abgeglichen werden muss.
Wer dahintersteht
Das Projekt kommt von Tencent Hunyuan; laut Paper und früher Berichterstattung sind auch Forschende beziehungsweise Partner von UCLA und der Chinese University of Hong Kong beteiligt [1][
3]. Das Paper trägt den Titel „OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents“ und wurde am 6. Mai 2026 bei arXiv eingereicht, der in der KI-Forschung viel genutzten Plattform für wissenschaftliche Preprints [
2].
Der technische Ansatz in Kürze
OpenSearch-VL umfasst nicht nur ein Modell, sondern auch Trainingsdaten und Trainingsmethoden. Genannt werden unter anderem:
- SearchVL-SFT mit 36.000 Trajektorien für überwachtes Feintuning,
- SearchVL-RL mit 8.000 Trajektorien für Reinforcement Learning,
- eine Methode namens Multi-round Fault-Aware GRPO, die darauf ausgelegt ist, auch aus teilweise fehlgeschlagenen Werkzeug-Nutzungsabläufen zu lernen [
3].
„Trajektorien“ meint hier vereinfacht die Abfolge von Schritten, die ein Agent beim Lösen einer Aufgabe durchläuft — also zum Beispiel: Bild prüfen, Websuche starten, Text per OCR auslesen, Ergebnis abgleichen und eine Antwort formulieren.
Vergleich mit OpenAI und Google
Der wichtigste Unterschied liegt weniger in einer einzelnen Funktion als in der Offenheit. Vergleichbare multimodale Such- und Rechercheagenten von OpenAI und Google sind weitgehend proprietär. OpenSearch-VL wird dagegen als offener Ansatz positioniert, bei dem Trainingsdaten, Code und Modellgewichte veröffentlicht werden sollen, damit Forschende das System reproduzieren, prüfen und weiterentwickeln können [3].
Bei der Leistung meldet Tencent deutliche Ergebnisse: In den berichteten Tests habe OpenSearch-VL die Durchschnittsleistung über sieben multimodale Deep-Search-Benchmarks hinweg um mehr als zehn Prozentpunkte verbessert und in einigen Aufgaben mit führenden geschlossenen kommerziellen Modellen mithalten können [3].
Warum Vorsicht angebracht ist
So interessant OpenSearch-VL für die offene KI-Forschung ist: Die Vergleiche mit OpenAI und Google sollte man derzeit nicht als endgültiges Urteil lesen. Die öffentlich verfügbare Evidenz stammt vor allem aus dem arXiv-Paper und früher Berichterstattung. Ob unabhängige Evaluierungen die Leistungsangaben bestätigen, ist bislang nicht klar [1][
2][
3].
Kurz gesagt: OpenSearch-VL ist Tencents offener Bauplan für multimodale Suchagenten — mit ambitionierten Leistungsansprüchen, einem klaren Fokus auf Werkzeugnutzung und einem offenen Gegenentwurf zu geschlossenen Systemen. Ob daraus tatsächlich ein dauerhaft konkurrenzfähiger Standard entsteht, müssen unabhängige Tests erst zeigen.





