답변게시됨2개월 전Last edited 지난달39 소스

추격자에서 경쟁자로: 알리바바 Qwen의 2026년 5월 질주

알리바바 Qwen 모델이 2026년 5월 음성·코딩 벤치마크에서 잇따라 글로벌 5위권에 이름을 올렸다. 음성 합성 'Fun Realtime TTS Preview'는 세계 5위, 코딩 특화 'Qwen3.7 Max'는 비미국 연구소 중 유일하게 코드 아레나 5위권에 진입했다.

Studio Global AI로 검색 및 팩트체크 인기 페이지 더 보기

What recent achievements have Alibaba's AI models made in global voice and coding benchmarks, how do they compare to Western rivals like OpeAI-generated editorial hero image for What recent achievements have Alibaba's AI models made in global voice and coding benchmarks, how do they compare to Western rivals like Ope.
AI 프롬프트
Create a landscape editorial hero image for this Studio Global article: What recent achievements have Alibaba's AI models made in global voice and coding benchmarks, how do they compare to Western rivals like Ope. Article summary: Alibaba has climbed into the global top tier in both voice and coding benchmarks in May 2026, rivaling or surpassing Western labs on specific leaderboards. The broader US–China AI performance gap has collapsed to roughly. Topic tags: general, education, general web, academic, government. Reference image context from search candidates: Reference image 1: visual subject "Alibaba's AI model Qwen3.7-Max has secured the fourth position on the global Code Arena coding leaderboard, outperforming models from OpenAI" source context "Alibaba AI beats Google and OpenAI in global coding rankings" Reference image 2: visual subject "Alibaba's new AI model scores higher than
openai.com

2026년 5월 말, 알리바바의 Qwen 모델 군이 글로벌 AI 벤치마크에서 거둔 연이은 성과는 하나의 분명한 메시지를 전달합니다. 더 이상 추격자가 아닌, 세계 최정상급과 직접 경쟁하는 당당한 경쟁자로 올라섰다는 것입니다.

음성 분야에서는 Fun-Realtime-TTS-Preview가 글로벌 5위권에 진입하며 중국 음성 모델 중 유일하게 톱 티어에 자리했습니다. 코딩 분야에서는 Qwen3.7-Max가 구글과 오픈AI 모델을 제치고 비미국 연구소 중 가장 높은 순위를 기록했죠. 이러한 결과를 더 큰 그림에서 바라본 스탠퍼드 '2026 AI 지수'는, 불과 2년 전 30%포인트 이상 벌어졌던 미국과 중국 최고 AI 모델 간 성능 격차가 약 **2.7%**로 사실상 소멸했음을 보여줍니다 .

음성: 'Fun-Realtime-TTS-Preview', 스피치 아레나 '그랜드 슬램' 달성

5월 28일, 알리바바 퉁이 랩(Tongyi Lab)의 Fun-Realtime-TTS-Preview는 세계적으로 권위 있는 AI 평가 플랫폼 'Artificial Analysis 스피치 아레나'에서 Elo 점수 1,190점으로 글로벌 5위에 올랐습니다. 이 모델은 톱5 중 유일한 중국산 음성 시스템이었으며, 중국 모델 중에서는 1위였습니다. 특히 놀라운 점은 ASR(음성인식), Chat(실시간 음성 대화), TTS(텍스트 음성 변환) 등 3개 핵심 평가 트랙 모두에서 중국 내 1위를 휩쓸며 음성 인터랙션 분야 '그랜드 슬램'을 기록했다는 것입니다 .

이는 단발적인 성과가 아닙니다. 앞서 공개된 'Fun-Realtime-ASR'과 'Fun-Realtime-AudioChat' 모델 역시 같은 플랫폼에서 '듣기, 이해, 대화' 부문 글로벌 1위에 오르며 GPT-Realtime-2 등 기존 강자를 넘어선 바 있습니다 . 또한 'Qwen2.5-Omni-7B'는 0.741점으로 'VoiceBench Avg' 리더보드 정상에 올라 있습니다 .

알리바바의 음성 모델들은 오픈AI, xAI 등 서방 강자들을 상대로 특히 복잡한 중국어 방언 및 지역 억양 처리에서 큰 강점을 보이며 기술적 우위를 입증했습니다 .

한편, 2026년 3월 공개된 'Qwen3.5-Omni-Plus'는 오디오 및 시청각 이해, 추론, 상호작용 등 215개 하위 작업에서 첨단(SOTA) 성능을 기록했습니다. 객관적 오디오 벤치마크에서는 구글의 Gemini 3.1 Pro를 일반 오디오 이해, 추론, 번역 부문에서 능가했으며, 포괄적 시청각 이해에서는 경쟁 모델과 동등한 수준을 달성했습니다 . 기술 리뷰에 따르면, 'Fleurs' ASR 벤치마크에서 6.55%의 단어 오류율(WER)을 기록해 Gemini 3.1 Pro의 7.32%를 앞서는 등 오디오 부문 우위는 명확합니다. 다만, 도구 사용 능력을 평가하는 'OmniGAIA' 벤치마크에서는 Gemini에 약 12포인트 뒤지는 것으로 나타나 복합적 에이전트 능력에서는 여전히 격차가 존재합니다 .

코딩: Qwen3.7-Max, 코드 아레나 4위로 비미국 최상위권 진입

2026년 5월 19일 출시된 'Qwen3.7-Max'는 일주일 만에 권위 있는 코드 아레나(Code Arena)의 WebDev 리더보드에서 Elo 점수 1,541점으로 전 세계 4위에 데뷔했습니다. 이는 오픈AI의 GPT 모델들과 구글의 Gemini를 모두 앞서는 기록이며, 단 1점 차이로 앤트로픽의 Claude Opus 4.6 Thinking에 이은 성적입니다 . React 코딩 트랙에서는 3위(1,536점)까지 올라, 두 종의 Claude Opus 모델들 바로 다음을 차지했습니다 (일부 소식통은 특정 하위 리더보드에서 잠시 2위까지 기록했다고 전합니다) .

앤트로픽의 Claude Opus 4.7/4.6 시리즈가 WebDev 1~3위를 사실상 독점한 상황에서, 알리바바는 앤트로픽 이외의 유일한 개발사이자 유일한 비미국 연구소로서 코딩 5위권에 진입하는 기염을 토했습니다 . 이 모델은 AI가 스스로 다단계 웹 개발 작업을 수행하는 '에이전트 기반 코딩' 평가에서 GPT-5.5, Gemini 3.5 Flash, GLM-5.1 등을 모두 제치고 인간의 실제 선호도에서 우위를 보였습니다 .

코드 아레나 외 다른 코딩 및 추론 벤치마크에서도 Qwen 시리즈의 경쟁력은 확연합니다.

LiveBench: Qwen3 235B A22B는 **80.4%**로, 오픈AI o4 Mini High(87.3%)와 딥시크 R1 0528(84.4%)에 이어 3위를 기록했습니다 .
MMLU-Pro / GPQA-AA: Qwen3.5 397B A17B는 **MMLU-Pro 87.8%**와 GPQA-AA Elo 1,495를 달성, 중국 모델 중 가장 높은 점수를 기록했습니다 .

전반적 아레나 구도: 최상위권이 촘촘하게 뭉쳤다

스탠퍼드 2026 AI 지수가 2026년 3월을 기준으로 집계한 아레나 Elo 순위 스냅숏은, 글로벌 최상위권 연구소들이 좁은 간격으로 밀집해 있음을 보여줍니다 .

연구소	아레나 Elo
앤트로픽 (Anthropic)	1,503
xAI	1,495
구글 (Google)	1,494
오픈AI (OpenAI)	1,481
알리바바 (Alibaba)	1,449
딥시크 (DeepSeek)	1,424

알리바바는 전체 5위로 선두 앤트로픽과 약 50~55점 차이에 불과합니다. 이는 단순 성능 싸움의 시대가 가고, 이제 경쟁의 압력이 비용, 안정성, 도메인 특화 성능으로 빠르게 이동하고 있음을 뜻합니다. 보고서 저자들은 이 구도가 "비용, 신뢰성, 특정 분야 성능으로의 경쟁 압력 전환"을 촉발했다고 분석했습니다 .

미중 AI 경쟁에 던지는 의미

이 같은 벤치마크 결과는 미중 간 AI 주도권 경쟁의 판도가 근본적으로 바뀌고 있는 시점에 등장했습니다. 스탠퍼드 2026 AI 지수에 따르면, 미중 최고 AI 모델 간 성능 격차는 2023년 5월 17.5~31.6%포인트에서 2026년 3월 **단 2.7%**로 폭이 급격히 좁아졌습니다. 이제 두 나라는 주요 벤치마크 1위 자리를 두고 "계속해서 순위를 뒤바꾸는" 상황에 접어들었으며, 이는 2024년까지 미국이 독주하던 시대와 극명하게 대비됩니다 .

더 놀라운 사실은 이러한 성과 차이가 엄청난 투자 격차 속에서 이루어졌다는 점입니다. 최근 집계 기간 기준으로 미국의 민간 AI 투자액은 2,859억 달러(약 400조 원)로, 중국의 124억 달러(약 17조 원)보다 무려 23배나 많습니다 .

분석가들은 중국의 추격 동력으로 다음 세 가지를 주로 꼽습니다.

중국 오픈소스 생태계의 힘: Qwen과 딥시크 R-시리즈 같은 모델을 기반으로 수많은 개발자가 실제 제품을 만드는 선순환이 가속화되고 있습니다. 일부 전략가들은 저렴한 전력, 공격적인 자본 지출, 오픈소스 개발자들의 혁신을 바탕으로 중국이 AI 도입 분야에서 "궁극적 승자"가 될 수 있다고 전망합니다 .
하드웨어 독립: 딥시크가 화웨이 칩에서 모델을 구동하는 데 성공한 것은, 단순히 한 기업의 기술적 성취를 넘어 미국 주도의 반도체 수출 통제 효과를 약화시키는 '탈미국 의존'의 신호탄으로 해석됩니다 .
도메인 특화 능력: 알리바바가 복잡한 방언과 억양을 다루는 음성 분야에서 보여주는 강점, 그리고 앤트로픽이 코딩 분야에서 보여주는 독보적 우위는 이제 AI 경쟁의 초점이 '만능 1등'을 가리는 것이 아니라 특정 분야의 탁월성을 향해 나아가고 있음을 보여줍니다 .

물론, 여전히 격차가 크다는 시각도 존재합니다. 브루킹스 연구소의 2026년 분석은 미국의 최첨단 모델이 중국보다 "수개월 이상" 앞서 있으며, 컴퓨팅 규모와 복잡한 장기 과제 수행 능력에서 우위를 지니고 있다고 평가합니다 . 같은 시기 미 의회 증언에서도 비슷한 관점이 제시되었습니다 .

그럼에도 불구하고 기업과 개발자 입장에서 실질적인 의미는 분명합니다. 더 치열한 경쟁은 더 빠른 기술 반복과 가격 하락, 그리고 미국과 중국 양쪽에서 선택할 수 있는 더 다양하고 강력한 AI 옵션을 의미한다는 것입니다 .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

사람들은 또한 묻습니다.