ผลลัพธ์เหล่านี้เป็นผลมาจากการผลักดันขนานใหญ่จากห้องปฏิบัติการเสียงของ Qwen ก่อนหน้านี้โมเดล Fun-Realtime-ASR และ Fun-Realtime-AudioChat ก็เคยขึ้นอันดับหนึ่งบนแพลตฟอร์มเดียวกันมาแล้ว และ Qwen2.5-Omni-7B ยังคงเป็นผู้นำบนลีดเดอร์บอร์ด VoiceBench Avg ด้วยคะแนน 0.741
โมเดลเสียงของ Alibaba ยังเอาชนะคู่แข่งตะวันตกรวมถึง OpenAI และ xAI บน Benchmark ด้านสำเนียงท้องถิ่นและภาษาถิ่น โดยมีข้อได้เปรียบเป็นพิเศษในการจัดการกับภาษาจีนถิ่นที่ซับซ้อน
อีกด้านหนึ่ง Qwen3.5-Omni-Plus—ซึ่งเปิดตัวในเดือนมีนาคม 2026—รายงานผลลัพธ์ล้ำสมัย (State-of-the-Art) ถึง 215 รายการ บนงานด้านความเข้าใจเสียงและเสียง-ภาพ บน Audio Benchmark อิสระ มันมีประสิทธิภาพเหนือกว่า Gemini 3.1 Pro ของ Google ในด้านความเข้าใจเสียงทั่วไป การใช้เหตุผล และการแปลภาษา แม้ว่ามันจะทำได้เพียงทัดเทียมกับ Gemini ในด้านความเข้าใจเสียง-ภาพแบบครอบคลุมก็ตาม บทวิเคราะห์ทางเทคนิคที่ผ่านการตรวจสอบระบุว่าชัยชนะด้านเสียงนั้นเป็นของจริง—โดยมีอัตราความผิดพลาดของคำ (Word Error Rate) ที่ 6.55% บน Fleurs ASR Benchmark เทียบกับ 7.32% ของ Gemini—แต่โมเดลดังกล่าวยังตามหลัง Gemini อยู่ประมาณ 12 คะแนนบน OmniGAIA Agentic Benchmark
Alibaba เปิดตัว Qwen3.7-Max เมื่อวันที่ 19 พฤษภาคม 2026 และภายในหนึ่งสัปดาห์มันก็ปรากฏตัวในอันดับ ที่ 4 บนลีดเดอร์บอร์ด WebDev ของ Code Arena ด้วยคะแนน Elo 1,541 ซึ่งตามหลัง Claude Opus 4.6 Thinking เพียงหนึ่งคะแนน และนำหน้าโมเดลทุกตัวจาก OpenAI และ Google บนสนามการเขียนโค้ด React มันขึ้นไปถึงอันดับ 3 ด้วยคะแนน 1,536 Elo โดยตามหลังเพียงสอง Claude Opus variants
บางแหล่งข่าวรายงานว่ามันไต่อันดับขึ้นไปถึงอันดับ 2 บนลีดเดอร์บอร์ดย่อยบางตัวของ Code Arena ในช่วงสั้นๆ
Claude Opus 4.7/4.6 จาก Anthropic ครองอันดับหนึ่งถึงสามบน WebDev นั่นหมายความว่า Alibaba เป็นผู้พัฒนาเพียงรายเดียวนอกเหนือจาก Anthropic—และเป็นห้องปฏิบัติการนอกสหรัฐฯ เพียงแห่งเดียว—ที่เจาะเข้ามาอยู่ใน Top 5 ของการเขียนโค้ดได้ โมเดลนี้มีอันดับเหนือกว่า GPT-5.5, Gemini 3.5 Flash และ GLM-5.1 บนงานพัฒนาเว็บแบบ Agentic ซึ่งประเมินความชอบของมนุษย์ในโลกแห่งความเป็นจริงบนขั้นตอนการทำงานเขียนโค้ดที่ซับซ้อนหลายขั้นตอน
นอกจาก Code Arena แล้ว โมเดล Qwen ยังทำผลงานที่แข่งขันได้บน Benchmark การเขียนโค้ดและการใช้เหตุผลอื่นๆ:
ภาพรวมคะแนน Arena Elo จาก Stanford 2026 AI Index ณ เดือนมีนาคม 2026 แสดงให้เห็นว่าห้องปฏิบัติการชั้นนำมีคะแนนเบียดเสียดกันแน่น :
| ห้องปฏิบัติการ | Arena Elo |
|---|---|
| Anthropic | 1,503 |
| xAI | 1,495 |
| 1,494 | |
| OpenAI | 1,481 |
| Alibaba | 1,449 |
| DeepSeek | 1,424 |
Alibaba อยู่อันดับ 5 โดยรวม ตามหลังผู้นำประมาณ 50–55 คะแนน นั่นเป็นระยะห่างที่ใกล้พอที่ผู้เขียนรายงานจะอธิบายว่าแรงกดดันในการแข่งขันได้เปลี่ยนทิศทางไปสู่ต้นทุน ความน่าเชื่อถือ และสมรรถนะเฉพาะด้าน มากกว่าความสามารถดิบๆ
ผลลัพธ์ Benchmark เหล่านี้เกิดขึ้นในปีที่ช่องว่างสมรรถนะระหว่างโมเดล AI ที่ดีที่สุดของสหรัฐฯ และจีนแทบจะหายไปจนหมด Stanford 2026 AI Index พบว่าช่องว่างได้ยุบตัวลงจาก 17.5–31.6 จุดเปอร์เซ็นต์ในเดือนพฤษภาคม 2023 เหลือเพียง 2.7% ในเดือนมีนาคม 2026 ขณะนี้ทั้งสองประเทศกำลัง "ผลัดกันขึ้นเป็นที่หนึ่งบน Benchmark อย่างต่อเนื่อง"—ซึ่งแตกต่างอย่างมากจากยุคที่สหรัฐฯ ครองความยิ่งใหญ่ตลอดปี 2024
สิ่งนี้เกิดขึ้นแม้ว่าสหรัฐฯ จะใช้จ่ายเงินลงทุนด้าน AI ภาคเอกชนมากกว่าจีนประมาณ 23 ต่อ 1—285.9 พันล้านดอลลาร์สหรัฐ เทียบกับ 12.4 พันล้านดอลลาร์สหรัฐในช่วงล่าสุดที่มีการติดตาม
นักวิเคราะห์ชี้ไปที่แรงขับเคลื่อนหลายประการที่อยู่เบื้องหลังการไล่ตามทันนี้:
เป็นที่น่าสังเกตว่าการประเมินอื่นๆ มองเห็นช่องว่างที่กว้างกว่า การวิเคราะห์ของ Brookings ในปี 2026 โต้แย้งว่าโมเดลแนวหน้าของสหรัฐฯ ยังคงนำหน้าจีน "หลายเดือนหรือมากกว่า" และห้องปฏิบัติการสหรัฐฯ ยังคงรักษาความได้เปรียบด้านขนาดการประมวลผลและงาน Agentic ในระยะยาว คำให้การต่อรัฐสภาในช่วงเวลาเดียวกันก็ให้ความเห็นไปในทิศทางเดียวกัน
Comments
0 comments