報告已發布2 個月前Last edited 上個月22 來源

美國 vs 中國 AI 晶片：架構、性能同生態系全面對比

美國目前喺高端 AI 加速器性能同生態系方面仍然領先，例如 AMD MI325X 提供約 1.3 PFLOPS FP16 算力同 256GB HBM3E 記憶體，而 Google TPU v6e 每粒晶片達 918 TFLOPs bf16。[83][61] 中國企業正建立本土替代方案，包括華為 Ascend 910 系列、壁仞 BR100 GPU 同寒武紀 MLU370‑X8，加強 AI 訓練同推理基礎設施。[36][48][12] AI 晶片競爭唔只係單粒晶片性能，仲包括記憶體頻寬、製造工藝、互連技術以及軟件生態系統。

使用 Studio Global AI 搜尋並查核事實瀏覽更多熱門頁面

Editorial illustration representing the competition between US and Chinese AI chips — Research US vs China AI Chips and compare them as comprehensively as possible in table formatThe global AI accelerator race increasingly centers on competing chip ecosystems in the United States and China.
AI 提示
Create a landscape editorial hero image for this Studio Global article: Research US vs China AI Chips and compare them as comprehensively as possible in table format. Article summary: The US side in this evidence set includes Nvidia H200, AMD MI325X, and Google TPU v6e, while the China side is represented mainly by Huawei’s Ascend 910B.. Topic tags: deepresearch, documentation, general web, education, user generated. Reference image context from search candidates: Reference image 1: visual subject "RAND's divisions conduct research on a uniquely broad front for clients around the globe. #### U.S. research divisions. U.S. and China flags on a computer chip on a motherboard. **" source context "China's AI Models Are Closing the Gap—but America's Real Advantage Lies Elsewhere | RAND" Reference image 2: visual subject "RAND's divisions conduct research on a uniquely broad front for clients a
openai.com

全球人工智能運算能力嘅競爭，近年愈來愈集中喺美國同中國兩大 AI 晶片生態系。美國長期主導高端 AI 加速器市場，主要玩家包括 Nvidia、AMD 同 Google；而中國則由華為、壁仞（Biren）同寒武紀（Cambricon）等公司逐步建立本土替代方案。

兩邊都已經推出專為 AI 訓練同推理設計嘅加速器。不過真正嘅競爭唔只係算力，仲涉及 記憶體容量、頻寬、晶片製造能力、軟件生態同大規模集群架構。

以下整理目前公開規格，比較幾款具代表性嘅 AI 晶片。

中美 AI 晶片主要玩家

美國

AMD Instinct MI325X
Google TPU v6e（Trillium）

中國

華為 Ascend 910 系列（包括 910C）
壁仞 Biren BR100 / BR104
寒武紀 Cambricon MLU370‑X8

呢啲晶片主要用於：

大型語言模型（LLM）訓練
AI 推理服務
高性能運算（HPC）

主要 AI 晶片規格比較

晶片	國家 / 公司	架構 / 製程	峰值算力	記憶體	記憶體頻寬	功耗	特色
AMD Instinct MI325X	美國 / AMD	CDNA3 架構	約 1.3 PFLOPS FP16（FP8 稀疏最高 2.6 PFLOPS）	256GB HBM3E	約 6 TB/s	約 750–1000W	超大 HBM 容量，專為大型模型訓練與推理設計。
Google TPU v6e (Trillium)	美國 / Google	自研 TPU 架構	918 TFLOPs bf16	32GB HBM	約 1.6 TB/s	未公布	支援最多 256 粒晶片 TPU Pod 集群。
Huawei Ascend 910	中國 / 華為	Da Vinci 架構，7nm	約 256 TFLOPS FP16	HBM	約 1.2 TB/s	約 350W	2019 年推出嘅旗艦 AI 加速器。
Huawei Ascend 910C	中國 / 華為	雙晶粒 chiplet 設計	約 800 TFLOPS FP16	約 96–128GB HBM	約 3.2 TB/s	約 310W	目標對標 Nvidia A100 / H100 等級。
Biren BR100	中國 / 壁仞	雙晶粒 GPU，TSMC 7nm	256 TFLOPS FP32 / 約 2048 TOPS INT8	64GB HBM2E	約 2.3 TB/s	約 550W	77B 晶體管 AI GPU。
Biren BR104	中國 / 壁仞	單晶粒 GPU	約 128 TFLOPS FP32	32GB HBM2E	約 819 GB/s	約 300W	PCIe 加速卡版本。
Cambricon MLU370‑X8	中國 / 寒武紀	MLUarch03，7nm	96 TFLOPS FP16 / 256 TOPS INT8	48GB LPDDR5	614 GB/s	約 250W	支援 MLU‑Link 多卡互連。

架構與算力：美國仍然領先

從公開數據睇，美國 AI 加速器喺原始算力方面仍然領先。

例如：

AMD MI325X 約有 1.3 PFLOPS FP16 計算能力。
Google TPU v6e 每粒晶片提供 918 TFLOPs bf16。

中國方面，華為最新 Ascend 910C 透過雙晶粒設計提升性能，估計達到 約 800 TFLOPS FP16。

另外，壁仞 BR100 亦嘗試打入高端市場：

256 TFLOPS FP32
約 2048 TOPS INT8。

寒武紀 MLU370‑X8 則偏向訓練與推理混合用途，提供：

96 TFLOPS FP16
256 TOPS INT8。

記憶體容量同頻寬

AI 模型愈大，越依賴高頻寬記憶體（HBM）。

AMD MI325X：256GB HBM3E、約 6 TB/s 頻寬，係現時最大容量之一。
TPU v6e：32GB HBM、約 1.6 TB/s。
Ascend 910C：約 3.2 TB/s 記憶體頻寬。
Biren BR100：64GB HBM2E、約 2.3 TB/s。

高頻寬記憶體可以加快矩陣運算同 tensor 傳輸，而呢啲正正係大型 AI 模型訓練嘅核心工作。

互連與大規模集群

現代 AI 訓練通常唔會只用一粒晶片，而係數百甚至數千粒加速器組成叢集。

幾個代表例子：

Google TPU v6e 使用專用 ICI（Inter‑Chip Interconnect），一個 TPU Pod 可連接 最多 256 粒晶片。
寒武紀 MLU370‑X8 透過 MLU‑Link，提供 200GB/s 卡間通訊頻寬。
Biren GPU 亦支援高速 GPU‑to‑GPU 互連。

因此，現時 AI 硬件競爭其實已經由「單粒晶片性能」轉為「整個 AI 超級集群系統」。

製造工藝與供應鏈

晶片製造能力對性能同能耗影響非常大。

部分中國 AI 晶片仍然依賴外部晶圓代工：

Biren BR100 使用 TSMC 7nm + CoWoS 封裝。
Ascend 910C 結合 SMIC 7nm 級工藝，並使用早期庫存晶圓。

相對而言，美國公司通常可以透過全球供應鏈取得更先進製程同封裝技術。

軟件生態系：真正決定勝負

AI 硬件唔只係晶片性能。

軟件生態同樣關鍵：

美國：CUDA（Nvidia）、ROCm（AMD）、TPU 軟件堆疊
中國：華為 CANN（Compute Architecture for Neural Networks）。

開發工具、框架兼容性同雲端平台整合，往往會影響企業最終選擇邊款硬件。

從比較可以見到幾個趨勢

目前 AI 晶片競賽呈現幾個明顯方向：

性能領先：美國晶片整體算力同記憶體配置仍然較高。
本土替代：中國積極建立 Ascend、Biren、Cambricon 等多條產品線。
系統級競爭：AI 基礎設施愈來愈依賴大型集群，而唔只係單粒 GPU。

換句話講，AI 晶片競賽唔再只係「晶體管數量」或者「TFLOPs」嘅比較，而係一場涉及 硬件、製造、軟件同超級計算基建嘅全面競爭。

隨住生成式 AI 模型持續變大，呢啲差異將會愈來愈影響未來 AI 計算平台嘅主導權。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

人們還問