| 中国 / Huawei |
| Da Vinci、7nm級 |
| 約256 TFLOPS FP16 |
| HBM |
| 約1.2 TB/s |
| 約350W |
| 2019年発表のHuaweiの主力AIチップ。 |
| Huawei Ascend 910C | 中国 / Huawei | チップレット設計 | 約800 TFLOPS FP16(推定) | 約96〜128GB HBM | 約3.2 TB/s | 約310W | A100/H100クラスを意識した設計。 |
| Biren BR100 | 中国 / Biren | デュアルダイGPU、TSMC 7nm CoWoS | 256 TFLOPS FP32 / 約2048 TOPS INT8 | 64GB HBM2E | 約2.3 TB/s | 約550W | 約770億トランジスタのデータセンターGPU。 |
| Biren BR104 | 中国 / Biren | 単一ダイGPU | 約128 TFLOPS FP32 | 32GB HBM2E | 約819 GB/s | 約300W | PCIeアクセラレータカード向け。 |
| Cambricon MLU370‑X8 | 中国 / Cambricon | MLUarch03、7nm | 96 TFLOPS FP16 / 256 TOPS INT8 | 48GB LPDDR5 | 約614 GB/s | 約250W | MLU‑Linkで複数カードを接続可能。 |
公開されているスペックを見る限り、純粋な理論演算性能では米国製アクセラレータが依然として優位です。
例えばAMDのMI325Xは
GoogleのTPU v6eも
中国側ではHuaweiのAscend 910Cが
またBirenのBR100は
AIモデルの巨大化に伴い、メモリ容量と帯域幅は計算性能と同じくらい重要になっています。
AIトレーニングでは巨大なテンソルを頻繁にメモリへ読み書きするため、帯域幅がボトルネックになることが多いのが特徴です。
現代のAIモデルは1枚のチップではなく、数百〜数千のアクセラレータを接続したクラスタで学習されます。
代表例:
このため現在のAI競争では、単一チップ性能よりもクラスタ設計が重要になりつつあります。
半導体製造技術は性能と電力効率に直結します。
例えばBirenのBR100は
HuaweiのAscendシリーズでは
米国企業は通常、TSMCなど最先端ファウンドリを利用できるため、製造技術面で優位とされることが多いです。
AIハードウェアの成功は、ソフトウェアに大きく依存します。
米国側の例
中国側ではHuaweiが
実際のAI開発では
などの要素が採用を大きく左右します。
現在のAIアクセラレータ市場にはいくつかの特徴があります。
1. 米国が性能とエコシステムで先行
2. 中国は国産代替路線を強化
3. 勝負は「AIインフラ全体」へ
今の競争はチップ単体ではなく
を含む総合戦になっています。
AIモデルが今後さらに巨大化すれば、アーキテクチャ設計・メモリ技術・ソフトウェア基盤の差が、どのプラットフォームが主流になるかを左右する可能性が高いでしょう。
Comments
0 comments