คำตอบเผยแพร่แล้ว2 เดือนที่ผ่านมาLast edited เดือนที่แล้ว39 แหล่งที่มา

เปิดเบื้องหลังการรันของ Alibaba ในพฤษภาคม 2026: เสียง โค้ด และสมรภูมิ AI สหรัฐฯ-จีน ที่แทบจะสูสี

โมเดลตระกูล Qwen ของ Alibaba กวาดอันดับท็อป 5 ของโลกถึงสองรายการในช่วงปลายเดือนพฤษภาคม 2026: Fun Realtime TTS Preview ขึ้นอันดับ 5 บน Artificial Analysis Speech Arena และ Qwen3.7 Max เปิดตัวด้วยอันดับ 4 บน Code Arena ช่องว่างสมรรถนะ AI ระหว่างสหรัฐฯ และจีนหดตัวจากที่เคยห่างกันถึง 31.6 จุดเปอร์เซ็นต์ในช่วงต้นปี 2023...

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI ดูหน้าที่กำลังมาแรงเพิ่มเติม

What recent achievements have Alibaba's AI models made in global voice and coding benchmarks, how do they compare to Western rivals like OpeAI-generated editorial hero image for What recent achievements have Alibaba's AI models made in global voice and coding benchmarks, how do they compare to Western rivals like Ope.
AI พรอมต์
Create a landscape editorial hero image for this Studio Global article: What recent achievements have Alibaba's AI models made in global voice and coding benchmarks, how do they compare to Western rivals like Ope. Article summary: Alibaba has climbed into the global top tier in both voice and coding benchmarks in May 2026, rivaling or surpassing Western labs on specific leaderboards. The broader US–China AI performance gap has collapsed to roughly. Topic tags: general, education, general web, academic, government. Reference image context from search candidates: Reference image 1: visual subject "Alibaba's AI model Qwen3.7-Max has secured the fourth position on the global Code Arena coding leaderboard, outperforming models from OpenAI" source context "Alibaba AI beats Google and OpenAI in global coding rankings" Reference image 2: visual subject "Alibaba's new AI model scores higher than
openai.com

ช่วงปลายเดือนพฤษภาคม 2026 ได้นำเสนอผลลัพธ์ Benchmark มากมายที่เมื่อนำมารวมกันแล้วบอกเล่าเรื่องราวเพียงหนึ่งเดียว: ตระกูลโมเดล Qwen ของ Alibaba ไม่ได้ตามหลังกลุ่มผู้นำจากโลกตะวันตกอีกต่อไป—มันได้เข้าไปนั่งอยู่ในกลุ่มหัวแถวเรียบร้อยแล้ว ในด้านเสียง Fun-Realtime-TTS-Preview ทะยานขึ้นสู่ Top 5 ของโลกและกวาดสามสนามเสียงหลักในจีน ในด้านโค้ด Qwen3.7-Max เปิดตัวเป็นโมเดลที่มีอันดับสูงสุดจากห้องปฏิบัติการนอกสหรัฐฯ บน Code Arena บริบทที่กว้างขึ้นซึ่งบันทึกโดย Stanford 2026 AI Index คือช่องว่างสมรรถนะระหว่างโมเดล AI ที่ดีที่สุดของสหรัฐฯ และจีนได้หดตัวลงเหลือประมาณ 2.7 เปอร์เซ็นต์—ลดลงจากกว่า 30 จุดเมื่อสองปีก่อน

เสียง: Fun-Realtime-TTS-Preview คว้า 'แกรนด์สแลม' บน Speech Arena

เมื่อวันที่ 28 พฤษภาคม Tongyi Lab ของ Alibaba ได้ส่ง Fun-Realtime-TTS-Preview ขึ้นสู่อันดับ 5 ของโลกบนลีดเดอร์บอร์ด Artificial Analysis Speech Arena ด้วยคะแนน Elo 1,190 มันเป็นระบบเสียงที่วิศวกรจีนสร้างขึ้นเพียงหนึ่งเดียวใน Top 5 ของโลก และเป็นอันดับหนึ่งในบรรดาโมเดลจีนทั้งหมดบนทั้งสามสนามหลัก—ASR (การรู้จำเสียงพูด), Chat (การสนทนาด้วยเสียงแบบ end-to-end) และ TTS (การสังเคราะห์เสียง)—ซึ่งได้รับการขนานนามว่าเป็น "แกรนด์สแลม" ในด้านการโต้ตอบด้วยเสียง

ผลลัพธ์เหล่านี้เป็นผลมาจากการผลักดันขนานใหญ่จากห้องปฏิบัติการเสียงของ Qwen ก่อนหน้านี้โมเดล Fun-Realtime-ASR และ Fun-Realtime-AudioChat ก็เคยขึ้นอันดับหนึ่งบนแพลตฟอร์มเดียวกันมาแล้ว และ Qwen2.5-Omni-7B ยังคงเป็นผู้นำบนลีดเดอร์บอร์ด VoiceBench Avg ด้วยคะแนน 0.741

โมเดลเสียงของ Alibaba ยังเอาชนะคู่แข่งตะวันตกรวมถึง OpenAI และ xAI บน Benchmark ด้านสำเนียงท้องถิ่นและภาษาถิ่น โดยมีข้อได้เปรียบเป็นพิเศษในการจัดการกับภาษาจีนถิ่นที่ซับซ้อน

อีกด้านหนึ่ง Qwen3.5-Omni-Plus—ซึ่งเปิดตัวในเดือนมีนาคม 2026—รายงานผลลัพธ์ล้ำสมัย (State-of-the-Art) ถึง 215 รายการ บนงานด้านความเข้าใจเสียงและเสียง-ภาพ บน Audio Benchmark อิสระ มันมีประสิทธิภาพเหนือกว่า Gemini 3.1 Pro ของ Google ในด้านความเข้าใจเสียงทั่วไป การใช้เหตุผล และการแปลภาษา แม้ว่ามันจะทำได้เพียงทัดเทียมกับ Gemini ในด้านความเข้าใจเสียง-ภาพแบบครอบคลุมก็ตาม บทวิเคราะห์ทางเทคนิคที่ผ่านการตรวจสอบระบุว่าชัยชนะด้านเสียงนั้นเป็นของจริง—โดยมีอัตราความผิดพลาดของคำ (Word Error Rate) ที่ 6.55% บน Fleurs ASR Benchmark เทียบกับ 7.32% ของ Gemini—แต่โมเดลดังกล่าวยังตามหลัง Gemini อยู่ประมาณ 12 คะแนนบน OmniGAIA Agentic Benchmark

การเขียนโค้ด: Qwen3.7-Max เจาะ Top 5 บน Code Arena

Alibaba เปิดตัว Qwen3.7-Max เมื่อวันที่ 19 พฤษภาคม 2026 และภายในหนึ่งสัปดาห์มันก็ปรากฏตัวในอันดับ ที่ 4 บนลีดเดอร์บอร์ด WebDev ของ Code Arena ด้วยคะแนน Elo 1,541 ซึ่งตามหลัง Claude Opus 4.6 Thinking เพียงหนึ่งคะแนน และนำหน้าโมเดลทุกตัวจาก OpenAI และ Google บนสนามการเขียนโค้ด React มันขึ้นไปถึงอันดับ 3 ด้วยคะแนน 1,536 Elo โดยตามหลังเพียงสอง Claude Opus variants บางแหล่งข่าวรายงานว่ามันไต่อันดับขึ้นไปถึงอันดับ 2 บนลีดเดอร์บอร์ดย่อยบางตัวของ Code Arena ในช่วงสั้นๆ

Claude Opus 4.7/4.6 จาก Anthropic ครองอันดับหนึ่งถึงสามบน WebDev นั่นหมายความว่า Alibaba เป็นผู้พัฒนาเพียงรายเดียวนอกเหนือจาก Anthropic—และเป็นห้องปฏิบัติการนอกสหรัฐฯ เพียงแห่งเดียว—ที่เจาะเข้ามาอยู่ใน Top 5 ของการเขียนโค้ดได้ โมเดลนี้มีอันดับเหนือกว่า GPT-5.5, Gemini 3.5 Flash และ GLM-5.1 บนงานพัฒนาเว็บแบบ Agentic ซึ่งประเมินความชอบของมนุษย์ในโลกแห่งความเป็นจริงบนขั้นตอนการทำงานเขียนโค้ดที่ซับซ้อนหลายขั้นตอน

นอกจาก Code Arena แล้ว โมเดล Qwen ยังทำผลงานที่แข่งขันได้บน Benchmark การเขียนโค้ดและการใช้เหตุผลอื่นๆ:

LiveBench: Qwen3 235B A22B ได้คะแนน 80.4% อยู่อันดับสามรองจาก o4 Mini High ของ OpenAI (87.3%) และ R1 0528 ของ DeepSeek (84.4%)
MMLU-Pro / GPQA-AA: Qwen3.5 397B A17B ได้คะแนน 87.8% บน MMLU-Pro และมี GPQA-AA Elo ที่ 1,495 ซึ่งสูงที่สุดในหมู่โมเดลจีน

ภาพรวมบน Arena: กระจุกตัวกันที่หัวตาราง

ภาพรวมคะแนน Arena Elo จาก Stanford 2026 AI Index ณ เดือนมีนาคม 2026 แสดงให้เห็นว่าห้องปฏิบัติการชั้นนำมีคะแนนเบียดเสียดกันแน่น :

ห้องปฏิบัติการ	Arena Elo
Anthropic	1,503
xAI	1,495
Google	1,494
OpenAI	1,481
Alibaba	1,449
DeepSeek	1,424

Alibaba อยู่อันดับ 5 โดยรวม ตามหลังผู้นำประมาณ 50–55 คะแนน นั่นเป็นระยะห่างที่ใกล้พอที่ผู้เขียนรายงานจะอธิบายว่าแรงกดดันในการแข่งขันได้เปลี่ยนทิศทางไปสู่ต้นทุน ความน่าเชื่อถือ และสมรรถนะเฉพาะด้าน มากกว่าความสามารถดิบๆ

สิ่งนี้หมายถึงอะไรสำหรับการแข่งขัน AI ระหว่างสหรัฐฯ และจีน

ผลลัพธ์ Benchmark เหล่านี้เกิดขึ้นในปีที่ช่องว่างสมรรถนะระหว่างโมเดล AI ที่ดีที่สุดของสหรัฐฯ และจีนแทบจะหายไปจนหมด Stanford 2026 AI Index พบว่าช่องว่างได้ยุบตัวลงจาก 17.5–31.6 จุดเปอร์เซ็นต์ในเดือนพฤษภาคม 2023 เหลือเพียง 2.7% ในเดือนมีนาคม 2026 ขณะนี้ทั้งสองประเทศกำลัง "ผลัดกันขึ้นเป็นที่หนึ่งบน Benchmark อย่างต่อเนื่อง"—ซึ่งแตกต่างอย่างมากจากยุคที่สหรัฐฯ ครองความยิ่งใหญ่ตลอดปี 2024

สิ่งนี้เกิดขึ้นแม้ว่าสหรัฐฯ จะใช้จ่ายเงินลงทุนด้าน AI ภาคเอกชนมากกว่าจีนประมาณ 23 ต่อ 1—285.9 พันล้านดอลลาร์สหรัฐ เทียบกับ 12.4 พันล้านดอลลาร์สหรัฐในช่วงล่าสุดที่มีการติดตาม

นักวิเคราะห์ชี้ไปที่แรงขับเคลื่อนหลายประการที่อยู่เบื้องหลังการไล่ตามทันนี้:

ระบบนิเวศโอเพนซอร์สของจีน: โมเดลอย่าง Qwen และ R-series ของ DeepSeek ดึงดูดชุมชนนักพัฒนาขนาดใหญ่ที่สร้างเครื่องมือการผลิตบนโมเดลเหล่านั้น นักยุทธศาสตร์บางคนโต้แย้งว่าจีนอาจกลายเป็น "ผู้ชนะรายใหญ่" ในการนำ AI ไปใช้งาน เนื่องจากพลังงานที่ถูกกว่า การใช้จ่ายเงินทุนที่ก้าวร้าว และนวัตกรรมโอเพนซอร์สจำนวนมาก
ความเป็นอิสระด้านฮาร์ดแวร์: ความสามารถของ DeepSeek ในการรันบนชิป Huawei ภายในประเทศเป็นสัญญาณของการแยกตัวออกจากการประมวลผลที่สหรัฐฯ ควบคุม ซึ่งอาจลดทอนผลกระทบของการควบคุมการส่งออกชิปของวอชิงตัน
ความเชี่ยวชาญเฉพาะด้าน: ข้อได้เปรียบของ Alibaba ในด้านการจัดการเสียง/ภาษาถิ่น และการครองความเป็นเจ้าตลาดการเขียนโค้ดอย่างต่อเนื่องของ Anthropic แสดงให้เห็นว่าขีดความสามารถระดับแนวหน้านั้นเกี่ยวกับความเป็นเลิศเฉพาะด้านมากขึ้นเรื่อยๆ ไม่ใช่ผู้ชนะแบบครอบจักรวาลเพียงรายเดียว

เป็นที่น่าสังเกตว่าการประเมินอื่นๆ มองเห็นช่องว่างที่กว้างกว่า การวิเคราะห์ของ Brookings ในปี 2026 โต้แย้งว่าโมเดลแนวหน้าของสหรัฐฯ ยังคงนำหน้าจีน "หลายเดือนหรือมากกว่า" และห้องปฏิบัติการสหรัฐฯ ยังคงรักษาความได้เปรียบด้านขนาดการประมวลผลและงาน Agentic ในระยะยาว คำให้การต่อรัฐสภาในช่วงเวลาเดียวกันก็ให้ความเห็นไปในทิศทางเดียวกัน

ถึงกระนั้นก็ตาม ผลกระทบในทางปฏิบัติสำหรับองค์กรและนักพัฒนานั้นชัดเจน: การแข่งขันที่มากขึ้น การพัฒนาที่รวดเร็วขึ้น ราคาที่ต่ำลง และตัวเลือกที่เหมาะสมมากขึ้นจากผู้ให้บริการทั้งสัญชาติอเมริกันและจีน

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

คนยังถาม

คำตอบสั้น ๆ สำหรับ "เปิดเบื้องหลังการรันของ Alibaba ในพฤษภาคม 2026: เสียง โค้ด และสมรภูมิ AI สหรัฐฯ-จีน ที่แทบจะสูสี" คืออะไร

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

ผลลัพธ์นี้ส่งสัญญาณถึงการเปลี่ยนผ่านของแรงกดดันในการแข่งขัน จากคะแนน Benchmark ล้วนๆ ไปสู่เรื่องของต้นทุน ความน่าเชื่อถือ ความสามารถด้านภาษาในภูมิภาค และความเชี่ยวชาญเฉพาะด้าน ซึ่งเป็นจุดที่ห้องปฏิบัติการจีนได้เปรียบด...

แหล่งที่มา

← Back to Trending