Hasil ini mengikuti dorongan lebih luas dari lab suara Qwen. Sebelumnya, model Fun-Realtime-ASR dan Fun-Realtime-AudioChat telah mengklaim posisi teratas di platform yang sama, dan Qwen2.5-Omni-7B memimpin papan peringkat VoiceBench Avg dengan skor 0.741 .
Model suara Alibaba juga telah mengalahkan rival Barat termasuk OpenAI dan xAI pada benchmark aksen regional dan dialek, dengan keunggulan khusus dalam dialek China yang kompleks .
Secara terpisah, Qwen3.5-Omni-Plus—dirilis pada Maret 2026—melaporkan 215 hasil state-of-the-art di berbagai tugas pemahaman audio dan audio-visual. Pada benchmark audio independen, ia mengungguli Gemini 3.1 Pro milik Google dalam pemahaman audio umum, penalaran, dan terjemahan, meskipun hanya menyamai Gemini pada pemahaman audio-visual komprehensif . Sebuah tinjauan teknis terukur mencatat bahwa kemenangan audio itu nyata—dengan tingkat kesalahan kata (WER) 6,55% pada benchmark ASR Fleurs versus 7,32% milik Gemini—tetapi model tersebut tertinggal dari Gemini sekitar 12 poin pada benchmark agentik OmniGAIA
.
Alibaba merilis Qwen3.7-Max pada 19 Mei 2026, dan dalam seminggu muncul di No. 4 papan peringkat WebDev Code Arena dengan Elo 1.541, satu poin di belakang Claude Opus 4.6 Thinking dan unggul dari setiap model dari OpenAI dan Google . Di jalur coding React, ia naik ke No. 3 dengan Elo 1.536, hanya tertinggal dari dua varian Claude Opus
. Beberapa sumber melaporkan ia sempat naik ke No. 2 di sub-papan peringkat Code Arena tertentu
.
Lini Claude Opus 4.7/4.6 milik Anthropic menempati posisi satu hingga tiga di WebDev, artinya Alibaba adalah satu-satunya pengembang di luar Anthropic—dan satu-satunya lab non-AS—yang berhasil menembus lima besar coding . Model ini duduk di depan GPT-5.5, Gemini 3.5 Flash, dan GLM-5.1 pada tugas pengembangan web agentik yang menilai preferensi manusia nyata pada alur kerja coding multi-langkah
.
Di luar Code Arena, model Qwen telah mencatatkan hasil kompetitif di benchmark coding dan penalaran lainnya:
Snapshot Arena Elo dari Indeks AI Stanford 2026 per Maret 2026 menunjukkan lab-lab teratas saling berdekatan :
| Lab | Arena Elo |
|---|---|
| Anthropic | 1.503 |
| xAI | 1.495 |
| 1.494 | |
| OpenAI | 1.481 |
| Alibaba | 1.449 |
| DeepSeek | 1.424 |
Alibaba duduk di posisi 5 secara keseluruhan, sekitar 50–55 poin di belakang sang pemimpin. Jarak itu cukup dekat sehingga para penulis laporan menggambarkan tekanan kompetitif telah bergeser ke arah biaya, keandalan, dan performa spesifik-domain, bukan sekadar kemampuan mentah .
Hasil benchmark ini muncul di tahun ketika kesenjangan performa antara model AI terbaik AS dan China hampir lenyap. Indeks AI Stanford 2026 menemukan kesenjangan itu runtuh dari 17,5–31,6 poin persentase pada Mei 2023 menjadi hanya 2,7% per Maret 2026. Kedua negara kini "terus-menerus bertukar tempat di puncak benchmark"—sebuah perubahan tajam dari era dominasi AS hingga 2024 .
Ini terjadi meskipun AS membelanjakan sekitar 23 kali lipat lebih banyak untuk investasi AI swasta dibandingkan China—$285,9 miliar berbanding $12,4 miliar dalam periode terbaru yang dilacak .
Para analis menunjuk pada beberapa kekuatan di balik pengejaran ini:
Penting untuk dicatat bahwa penilaian lain melihat kesenjangan yang lebih lebar. Analisis Brookings 2026 berpendapat bahwa model frontier Amerika masih memimpin model China "beberapa bulan atau lebih" dan bahwa lab AS mempertahankan keunggulan dalam skala komputasi dan tugas-tugas agentik berjangka panjang . Kesaksian kongres dari periode yang sama menyampaikan poin serupa
.
Meski begitu, dampak praktis bagi perusahaan dan pengembang jelas: lebih banyak kompetisi, iterasi lebih cepat, harga lebih rendah, dan lebih banyak opsi yang layak dari penyedia Amerika maupun China .
Comments
0 comments