Dựa trên tiêu chuẩn này, số điểm 1.541 của Qwen3.7-Max chứng minh rằng dòng mô hình Qwen của Alibaba giờ đây đã có đủ sức cạnh tranh ở cấp độ cao nhất toàn cầu. Nó không chỉ vượt qua các lựa chọn thay thế chủ đạo của Mỹ mà còn vượt trội hơn cả phiên bản không có suy luận của Claude Opus 4.6 về hiệu suất lập trình trực tiếp .
Kết quả này phá vỡ thế trận mà ở đó các vị trí AI lập trình hàng đầu chỉ là cuộc chơi của hai công ty Mỹ. Nó báo hiệu rằng các phòng thí nghiệm AI Trung Quốc giờ đây có thể tạo ra những mô hình đủ sức cạnh tranh ở tuyến đầu trong các tác vụ phát triển phần mềm thực tế. Sự trỗi dậy nhanh chóng của Qwen3.7-Max phù hợp với những xu hướng rộng lớn hơn trên đấu trường lập trình AI, nơi nhiều phòng thí nghiệm Trung Quốc — bao gồm Kimi K2.5 của Moonshot — gần đây cũng đã lọt vào top 10 .
Trong khi kết quả tại Code Arena thu hút nhiều sự chú ý nhất, Qwen3.7-Max còn thể hiện sức mạnh ấn tượng ở các lĩnh vực khác. Mô hình này đứng thứ mười trên bảng xếp hạng Design Arena, cho thấy sức mạnh đánh giá đa phương thức vượt ra ngoài khả năng tạo mã đơn thuần . Mô hình này còn được mô tả là kết hợp khả năng suy luận với hỗ trợ cho các tác vụ tự động chạy trong thời gian dài, bao gồm tới 35 giờ làm việc liên tục và hơn 1.000 lần gọi công cụ
.
Đối với các nhà phát triển và doanh nghiệp, hàm ý rất rõ ràng: thế hệ trợ lý lập trình AI tiếp theo không còn bị giới hạn ở một khu vực địa lý hay một công ty duy nhất. Qwen3.7-Max của Alibaba đã tự đưa mình vào danh sách rút gọn các mô hình tiên phong đáng để đo hiệu năng cho các quy trình làm việc kỹ thuật phần mềm trong thế giới thực.
Comments
0 comments