Berdasarkan tolok ukur ini, skor 1.541 poin Qwen3.7-Max menunjukkan bahwa keluarga model Qwen dari Alibaba kini kompetitif secara global di level tertinggi. Model ini tidak hanya melampaui alternatif utama dari Amerika Serikat, tetapi juga berhasil mengungguli Claude Opus 4.6 versi non-thinking dalam performa coding langsung .
Hasil ini mematahkan pola di mana posisi puncak AI coding hanya terbagi antara dua perusahaan Amerika Serikat. Ini adalah sinyal bahwa laboratorium AI Tiongkok kini mampu menghasilkan model yang dapat bersaing di garis depan tugas-tugas pengembangan perangkat lunak praktis. Kebangkitan cepat Qwen3.7-Max sejalan dengan tren yang lebih luas di arena AI coding, di mana sejumlah laboratorium asal Tiongkok—termasuk Kimi K2.5 dari Moonshot—baru-baru ini ikut masuk dalam 10 besar .
Meskipun hasil di Code Arena paling menarik perhatian, Qwen3.7-Max juga menunjukkan performa kuat di bidang lain. Model ini menempati posisi kesepuluh di papan peringkat Design Arena, menunjukkan kekuatan evaluasi multi-modal di luar sekadar generasi kode . Model ini juga digambarkan menggabungkan kemampuan penalaran dengan dukungan untuk tugas-tugas otonom berdurasi panjang, termasuk kemampuan bekerja hingga 35 jam terus menerus dan melakukan lebih dari 1.000 pemanggilan alat (tool calls)
.
Bagi para pengembang dan pelaku bisnis, implikasinya jelas: asisten coding AI generasi berikutnya tidak lagi terbatas pada satu kawasan atau perusahaan saja. Qwen3.7-Max dari Alibaba telah menempatkan dirinya dalam daftar pendek model-model terdepan yang layak dijadikan tolok ukur untuk alur kerja rekayasa perangkat lunak di dunia nyata.
Comments
0 comments