「3冠」とは、以下の3つの主要評価トラック全てで中国勢トップを獲得したことを指します。
この成果は、突如として現れたものではありません。同ラボが以前に発表した「Fun-Realtime-ASR」と「Fun-Realtime-AudioChat」も、既に同一プラットフォームで世界トップの評価を獲得しており、アリババの音声AI技術の地力の高さを示しています 。
特に注目すべきは、複雑な中国語の方言や地域訛り(なまり)への対応力です。アリババの音声モデルは、これらの分野に特化したベンチマークにおいて、OpenAIやxAIといった欧米の競合を凌駕していると報告されています 。
また、2026年3月にリリースされたマルチモーダルモデルQwen3.5-Omni-Plusは、音声と映像の理解タスクにおいて215のベンチマークで最先端(SOTA)の結果を達成。特に一般的な音声理解、推論、翻訳においてGoogleのGemini 3.1 Proを上回ったと報告されています 。一方で、AIエージェントとしての複雑なタスク実行能力を測る「OmniGAIA」ベンチマークでは、Geminiに約12ポイントの差をつけられているなど、課題も残されています
。
2026年5月19日に発表されたQwen3.7-Maxは、リリースからわずか1週間で、コーディング能力を評価する主要ベンチマーク「Code Arena」のWeb開発(WebDev)部門において、Eloスコア1,541で世界第4位にデビューしました。これは、Anthropicの「Claude Opus 4.6 Thinking」にわずか1ポイント差に迫るスコアであり、OpenAIやGoogleの全てのモデルを上回る結果です 。
Reactを用いたフロントエンド開発タスクに特化したReactトラックでは、さらに順位を上げ、世界第3位(Elo 1,536)を記録しています 。一部のサブリーダーボードでは、瞬間的に2位に浮上したとの報道もあります
。
Code Arenaの総合ランキング上位を独占するのはAnthropicの「Claude Opus」シリーズであり、Qwen3.7-MaxはAnthropic以外で唯一、そして米国企業以外で唯一、トップ5に食い込んだモデルとなりました 。この成果は、複数ステップの推論とツール利用を必要とする「エージェンティックな」コーディングタスクにおいて、QwenがGPT-5.5やGemini 3.5 Flashといったモデルよりも高い実用的価値を人間の評価者から認められたことを意味します
。
その他の主要コーディング・推論ベンチマークでも、Qwenモデルは存在感を示しています。
| 研究機関 | Arena Eloスコア |
|---|---|
| Anthropic | 1,503 |
| xAI | 1,495 |
| 1,494 | |
| OpenAI | 1,481 |
| アリババ (Alibaba) | 1,449 |
| DeepSeek | 1,424 |
アリババは総合5位につけており、トップのAnthropicとの差は約50〜55ポイントです。報告書の執筆者たちは、この僅差の状況を指して、「企業間の競争圧力は、もはや純粋な性能競争から、コスト、信頼性、そして特定領域(ドメイン)での専門性能へとシフトしている」と分析しています 。
これらのベンチマーク結果が突きつける現実は明確です。米中のトップAIモデル間の性能差は、もはや「ほぼ消滅した」と言ってよいレベルにあります。スタンフォードの報告書によれば、その差は2023年5月時点の17.5~31.6ポイントから、2026年3月には**わずか2.7%**にまで縮小。両国のモデルは「ベンチマークの首位を常に入れ替わりながら競っている」状態であり、2024年まで続いた「米国一強」時代とは明確に異なるフェーズに入っています 。
このキャッチアップが起きた背景は、非常にドラマチックです。同期間における米国のAIへの民間投資額は約2,859億ドルに対し、中国は約124億ドル。つまり、米国が約23倍の資金を投じながら、性能面でのリードをほぼ失ったことになります 。
アナリストたちは、この逆転現象の要因として、いくつかの構造的な強みを指摘しています。
ただし、認識を一つにすることはできません。例えば2026年のブルッキングス研究所の分析は、米国の最先端モデルは依然として「数カ月以上」のリードを保っており、特に大規模計算と長期的なエージェントタスクにおいて優位性が続いていると論じています 。米国議会での証言でも同様の見解が示されています
。
Comments
0 comments