이는 단발적인 성과가 아닙니다. 앞서 공개된 'Fun-Realtime-ASR'과 'Fun-Realtime-AudioChat' 모델 역시 같은 플랫폼에서 '듣기, 이해, 대화' 부문 글로벌 1위에 오르며 GPT-Realtime-2 등 기존 강자를 넘어선 바 있습니다 . 또한 'Qwen2.5-Omni-7B'는 0.741점으로 'VoiceBench Avg' 리더보드 정상에 올라 있습니다
.
한편, 2026년 3월 공개된 'Qwen3.5-Omni-Plus'는 오디오 및 시청각 이해, 추론, 상호작용 등 215개 하위 작업에서 첨단(SOTA) 성능을 기록했습니다. 객관적 오디오 벤치마크에서는 구글의 Gemini 3.1 Pro를 일반 오디오 이해, 추론, 번역 부문에서 능가했으며, 포괄적 시청각 이해에서는 경쟁 모델과 동등한 수준을 달성했습니다 . 기술 리뷰에 따르면, 'Fleurs' ASR 벤치마크에서 6.55%의 단어 오류율(WER)을 기록해 Gemini 3.1 Pro의 7.32%를 앞서는 등 오디오 부문 우위는 명확합니다. 다만, 도구 사용 능력을 평가하는 'OmniGAIA' 벤치마크에서는 Gemini에 약 12포인트 뒤지는 것으로 나타나 복합적 에이전트 능력에서는 여전히 격차가 존재합니다
.
2026년 5월 19일 출시된 'Qwen3.7-Max'는 일주일 만에 권위 있는 코드 아레나(Code Arena)의 WebDev 리더보드에서 Elo 점수 1,541점으로 전 세계 4위에 데뷔했습니다. 이는 오픈AI의 GPT 모델들과 구글의 Gemini를 모두 앞서는 기록이며, 단 1점 차이로 앤트로픽의 Claude Opus 4.6 Thinking에 이은 성적입니다 . React 코딩 트랙에서는 3위(1,536점)까지 올라, 두 종의 Claude Opus 모델들 바로 다음을 차지했습니다
(일부 소식통은 특정 하위 리더보드에서 잠시 2위까지 기록했다고 전합니다)
.
앤트로픽의 Claude Opus 4.7/4.6 시리즈가 WebDev 1~3위를 사실상 독점한 상황에서, 알리바바는 앤트로픽 이외의 유일한 개발사이자 유일한 비미국 연구소로서 코딩 5위권에 진입하는 기염을 토했습니다 . 이 모델은 AI가 스스로 다단계 웹 개발 작업을 수행하는 '에이전트 기반 코딩' 평가에서 GPT-5.5, Gemini 3.5 Flash, GLM-5.1 등을 모두 제치고 인간의 실제 선호도에서 우위를 보였습니다
.
코드 아레나 외 다른 코딩 및 추론 벤치마크에서도 Qwen 시리즈의 경쟁력은 확연합니다.
| 연구소 | 아레나 Elo |
|---|---|
| 앤트로픽 (Anthropic) | 1,503 |
| xAI | 1,495 |
| 구글 (Google) | 1,494 |
| 오픈AI (OpenAI) | 1,481 |
| 알리바바 (Alibaba) | 1,449 |
| 딥시크 (DeepSeek) | 1,424 |
알리바바는 전체 5위로 선두 앤트로픽과 약 50~55점 차이에 불과합니다. 이는 단순 성능 싸움의 시대가 가고, 이제 경쟁의 압력이 비용, 안정성, 도메인 특화 성능으로 빠르게 이동하고 있음을 뜻합니다. 보고서 저자들은 이 구도가 "비용, 신뢰성, 특정 분야 성능으로의 경쟁 압력 전환"을 촉발했다고 분석했습니다 .
이 같은 벤치마크 결과는 미중 간 AI 주도권 경쟁의 판도가 근본적으로 바뀌고 있는 시점에 등장했습니다. 스탠퍼드 2026 AI 지수에 따르면, 미중 최고 AI 모델 간 성능 격차는 2023년 5월 17.5~31.6%포인트에서 2026년 3월 **단 2.7%**로 폭이 급격히 좁아졌습니다. 이제 두 나라는 주요 벤치마크 1위 자리를 두고 "계속해서 순위를 뒤바꾸는" 상황에 접어들었으며, 이는 2024년까지 미국이 독주하던 시대와 극명하게 대비됩니다 .
더 놀라운 사실은 이러한 성과 차이가 엄청난 투자 격차 속에서 이루어졌다는 점입니다. 최근 집계 기간 기준으로 미국의 민간 AI 투자액은 2,859억 달러(약 400조 원)로, 중국의 124억 달러(약 17조 원)보다 무려 23배나 많습니다 .
분석가들은 중국의 추격 동력으로 다음 세 가지를 주로 꼽습니다.
물론, 여전히 격차가 크다는 시각도 존재합니다. 브루킹스 연구소의 2026년 분석은 미국의 최첨단 모델이 중국보다 "수개월 이상" 앞서 있으며, 컴퓨팅 규모와 복잡한 장기 과제 수행 능력에서 우위를 지니고 있다고 평가합니다 . 같은 시기 미 의회 증언에서도 비슷한 관점이 제시되었습니다
.
Comments
0 comments