Die Platzierung ist Teil einer breiteren Offensive des Qwen-Sprachlabors. Zuvor hatten bereits Fun-Realtime-ASR und Fun-Realtime-AudioChat Spitzenplätze auf derselben Plattform erobert. Qwen2.5-Omni-7B führt zudem die VoiceBench-Avg-Rangliste mit einem Wert von 0,741 an .
Bemerkenswert: Alibabas Sprachmodelle übertreffen westliche Konkurrenten wie OpenAI und xAI bei Dialekt- und Akzent-Benchmarks, insbesondere bei komplexen chinesischen Dialekten – eine Fähigkeit, die für den chinesischen Markt enorm wichtig ist .
Bereits im März 2026 veröffentlichte Alibaba Qwen3.5-Omni-Plus, das 215 State-of-the-Art-Ergebnisse bei Audio- und audiovisuellen Verständnisaufgaben meldete. In unabhängigen Audio-Benchmarks übertraf es Googles Gemini 3.1 Pro bei allgemeinem Audioverständnis, Reasoning und Übersetzung, erreichte aber bei umfassendem audiovisuellem Verständnis nur Gleichstand . Eine detaillierte technische Analyse bestätigt die Audio-Erfolge – etwa eine Wortfehlerrate von 6,55 % beim Fleurs-ASR-Benchmark gegenüber 7,32 % bei Gemini –, verweist aber auf einen Rückstand von rund 12 Punkten beim agentischen OmniGAIA-Benchmark
.
Alibaba brachte Qwen3.7-Max am 19. Mai 2026 auf den Markt. Innerhalb einer Woche erschien das Modell auf Platz 4 der Code Arena WebDev-Rangliste mit einem Elo von 1.541 – nur einen Punkt hinter Claude Opus 4.6 Thinking und vor sämtlichen Modellen von OpenAI und Google . Im React-Coding-Track stieg es auf Platz 3 mit 1.536 Elo, geschlagen nur von zwei Claude-Opus-Varianten
. Einige Quellen berichten von einem kurzzeitigen Aufstieg auf Platz 2 in bestimmten Code-Arena-Unterkategorien
.
Anthropics Claude-Opus-Linie belegte die Plätze eins bis drei im WebDev-Bereich. Damit ist Alibaba das einzige Labor außerhalb von Anthropic – und das einzige nicht-US-amerikanische –, das in die Coding-Top-5 vordringen konnte . Das Modell liegt bei agentischen Webentwicklungsaufgaben, die reale menschliche Präferenzen bei mehrschrittigen Coding-Workflows bewerten, vor GPT-5.5, Gemini 3.5 Flash und GLM-5.1
.
Auch auf anderen Coding- und Reasoning-Benchmarks erzielen Qwen-Modelle wettbewerbsfähige Ergebnisse:
Der Stanford AI Index 2026 zeigt in seiner Arena-Elo-Momentaufnahme vom März 2026, wie dicht die führenden Labs beieinander liegen :
| Labor | Arena Elo |
|---|---|
| Anthropic | 1.503 |
| xAI | 1.495 |
| 1.494 | |
| OpenAI | 1.481 |
| Alibaba | 1.449 |
| DeepSeek | 1.424 |
Alibaba liegt auf Platz 5, etwa 50–55 Punkte hinter dem Spitzenreiter. Das ist nah genug, dass die Autoren des Berichts den Wettbewerbsdruck als verschoben beschreiben – weg von reiner Leistungsfähigkeit, hin zu Kosten, Zuverlässigkeit und domänenspezifischer Performance .
Die Benchmark-Ergebnisse fallen in ein Jahr, in dem der Leistungsabstand zwischen den besten US- und chinesischen KI-Modellen nahezu verschwunden ist. Der Stanford AI Index 2026 beziffert den Rückgang von 17,5–31,6 Prozentpunkten im Mai 2023 auf nur noch 2,7 % im März 2026. Beide Länder „tauschen ständig die Plätze an der Spitze der Benchmarks“ – eine scharfe Abkehr von der US-Dominanz, die die KI-Welt bis 2024 prägte .
Dies geschah, obwohl die USA etwa 23-mal mehr in private KI-Investitionen stecken: 285,9 Milliarden Dollar gegenüber 12,4 Milliarden Dollar im jüngsten erfassten Zeitraum .
Analysten führen mehrere Faktoren für das Aufholen an:
Es gibt jedoch auch abweichende Einschätzungen: Eine Brookings-Analyse von 2026 argumentiert, dass amerikanische Spitzenmodelle weiterhin „mehrere Monate voraus“ seien und US-Labs einen Vorsprung bei Rechenleistung und längerfristigen agentischen Aufgaben hätten . Eine Kongressanhörung aus demselben Zeitraum kommt zu einem ähnlichen Schluss
.
Comments
0 comments