| 2019 年推出嘅旗艦 AI 加速器。 |
| Huawei Ascend 910C | 中國 / 華為 | 雙晶粒 chiplet 設計 | 約 800 TFLOPS FP16 | 約 96–128GB HBM | 約 3.2 TB/s | 約 310W | 目標對標 Nvidia A100 / H100 等級。 |
| Biren BR100 | 中國 / 壁仞 | 雙晶粒 GPU,TSMC 7nm | 256 TFLOPS FP32 / 約 2048 TOPS INT8 | 64GB HBM2E | 約 2.3 TB/s | 約 550W | 77B 晶體管 AI GPU。 |
| Biren BR104 | 中國 / 壁仞 | 單晶粒 GPU | 約 128 TFLOPS FP32 | 32GB HBM2E | 約 819 GB/s | 約 300W | PCIe 加速卡版本。 |
| Cambricon MLU370‑X8 | 中國 / 寒武紀 | MLUarch03,7nm | 96 TFLOPS FP16 / 256 TOPS INT8 | 48GB LPDDR5 | 614 GB/s | 約 250W | 支援 MLU‑Link 多卡互連。 |
從公開數據睇,美國 AI 加速器喺原始算力方面仍然領先。
例如:
另外,壁仞 BR100 亦嘗試打入高端市場:
寒武紀 MLU370‑X8 則偏向訓練與推理混合用途,提供:
AI 模型愈大,越依賴高頻寬記憶體(HBM)。
高頻寬記憶體可以加快矩陣運算同 tensor 傳輸,而呢啲正正係大型 AI 模型訓練嘅核心工作。
現代 AI 訓練通常唔會只用一粒晶片,而係數百甚至數千粒加速器組成叢集。
幾個代表例子:
因此,現時 AI 硬件競爭其實已經由「單粒晶片性能」轉為「整個 AI 超級集群系統」。
晶片製造能力對性能同能耗影響非常大。
部分中國 AI 晶片仍然依賴外部晶圓代工:
相對而言,美國公司通常可以透過全球供應鏈取得更先進製程同封裝技術。
AI 硬件唔只係晶片性能。
軟件生態同樣關鍵:
開發工具、框架兼容性同雲端平台整合,往往會影響企業最終選擇邊款硬件。
目前 AI 晶片競賽呈現幾個明顯方向:
換句話講,AI 晶片競賽唔再只係「晶體管數量」或者「TFLOPs」嘅比較,而係一場涉及 硬件、製造、軟件同超級計算基建嘅全面競爭。
隨住生成式 AI 模型持續變大,呢啲差異將會愈來愈影響未來 AI 計算平台嘅主導權。
Comments
0 comments