好多 AI 硬件比較一開口就問:TPU 係咪快過 GPU?其實呢個問法太闊。Google TPU(Tensor Processing Unit)係為機器學習系統做張量處理而設嘅專用加速器 [2];NVIDIA H100 SXM 則係資料中心 GPU,公開規格表涵蓋 FP64、FP32、TF32 Tensor Core、BF16/FP16、FP8 同 INT8 等模式 [
10]。
所以,真正問題唔係邊粒晶片永遠贏,而係你個模型、軟件棧、精度要求、HBM 記憶體、擴展方式同部署限制,邊個配合得最好。本文講 NVIDIA GPU 時,主要以 NVIDIA H100 SXM 同 Google Cloud A3 H100 VM 做參考;TPU 則以 v5e、v5p、v6e 對照 [1][
10][
11]。
先講結論
- 偏向 Google TPU:當工作負載主要係深度學習,模型可以順利映射到 TPU 執行,而且團隊熟悉 TPU 導向嘅擴展方式。JAX scaling 文件列出 TPU pod topology、每晶片 HBM、頻寬、BF16 同 INT8 數字,可作規劃參考 [
11]。
- 偏向 NVIDIA H100 GPU:當你需要更闊精度支援、混合工作負載,或者想降低由現有 GPU-first stack 遷移出去嘅風險。NVIDIA H100 SXM 公開規格包括 FP64、FP32、TF32 Tensor Core、BF16/FP16 Tensor Core、FP8 Tensor Core、INT8 Tensor Core,並列出 80GB HBM3 同 3.35TB/s 記憶體頻寬 [
10]。
- 如果成本係最大因素,兩邊都要 benchmark:峰值 FLOPS、每 chip-hour 價錢同供應商說法,都唔等於你個模型嘅每個有效 training step 或 inference token 成本。
架構取捨:專用,定彈性?
TPU 係針對 tensor processing 嘅專用 ASIC,重點係服務機器學習系統 [2]。當模型 shape 穩定、batching 合理、切分(sharding)方式啱 TPU、編譯器路徑順暢,呢種專用化可以令大型而規律嘅張量工作負載更容易食盡硬件。
H100 走嘅路線就闊啲。佢有 Tensor Cores,對 AI 好進取;但 H100 SXM 規格表同時列出傳統 FP64、FP32,以及多種低精度 Tensor Core 模式 [10]。如果同一批加速器要支援唔同實驗、唔同精度、甚至唔完全一樣嘅深度學習工作,呢種彈性就好有價值。
公開規格有用,但唔係同場直跑 benchmark
TPU 同 GPU 規格表經常用唔同精度模式、唔同系統假設、唔同擴展路徑。睇數字可以理解取捨方向,但唔應該直接當作蘋果對蘋果嘅性能排名。
| 加速器 | 公開記憶體數字 | 公開頻寬數字 | 公開運算數字 | 點樣理解 |
|---|---|---|---|---|
| TPU v5e | 每晶片 16GB HBM | 每晶片 8.1e11 bytes/s | 每晶片 1.97e14 BF16 FLOPs/s;3.94e14 INT8 FLOPs/s | 喺 JAX 表入面,v5e 每晶片 HBM 少過 v5p 同 v6e;模型記憶體 fit 要特別小心 [ |
| TPU v5p | 每晶片 96GB HBM | 每晶片 2.8e12 bytes/s | 每晶片 4.59e14 BF16 FLOPs/s;9.18e14 INT8 FLOPs/s | 喺 v5e、v5p、v6e 之中,JAX 表列出 v5p 每晶片 HBM 最高 [ |
| TPU v6e | 每晶片 32GB HBM | 每晶片 1.6e12 bytes/s | 每晶片 9.20e14 BF16 FLOPs/s;1.84e15 INT8 FLOPs/s | 喺呢幾個 TPU row 入面,v6e 列出最高每晶片 BF16 同 INT8 throughput [ |
| NVIDIA H100 SXM | 80GB HBM3 | 3.35TB/s | 67 TFLOPS FP32;989 TFLOPS TF32 Tensor Core;1,979 TFLOPS BF16/FP16 Tensor Core;3,958 TFLOPS FP8 Tensor Core;3,958 TOPS INT8 Tensor Core | 精度覆蓋較闊、記憶體頻寬高,定位更接近通用而強 AI 取向嘅加速平台 [ |
Google Cloud 亦記錄 A3 機型可掛 1、2、4 或 8 張 H100 GPU,而且每張 H100 GPU 有 80GB HBM3 [1]。Google Cloud 嘅 AI Hypercomputer 內容亦將 TPU 同使用 NVIDIA H100 GPU 嘅 A3 VM 放喺同一個 AI 基建組合入面 [
18]。換句話講,實務上唔一定係「Google Cloud 上用 TPU」對「去第二個雲用 GPU」;有時係同一雲端平台入面,喺 TPU 同 H100 之間揀。
幾時 Google TPU 會比較啱?
當專用化係優勢,而唔係限制,TPU 就值得排前啲考慮。特別係:
- 工作主要係深度學習訓練或推論,並由大型張量運算主導 [
2];
- 模型 shape、batch size、sharding pattern 相對穩定,可以調校到 TPU 利用率;
- 團隊願意跟 TPU 導向嘅 scaling 方法做設計;JAX scaling 文件將 pod size、host size、HBM 容量、頻寬、BF16/INT8 throughput 視為核心規劃維度 [
11];
- 部署環境本身已經打算用 Google Cloud;
- 商業目標係針對少數模型做實測 cost-performance,而唔係追求最多 workload 都能搬來搬去。
TPU 可以好吸引,但「吸引」係 workload 跑出嚟嘅結果,唔係普遍定律。Google Cloud 曾發布 AI inference 上 GPU 同 TPU 嘅 performance-per-dollar 分析 [16],呢點亦提醒大家:推論經濟效益要睇模型同設定,唔存在單一放諸四海皆準嘅加速器排名。
幾時 NVIDIA H100 GPU 會比較啱?
如果你重視彈性多過專用化,H100 通常係較穩陣嘅候選。特別係:
- 你需要 FP64、FP32 等較高精度模式,同時又要 TF32、BF16/FP16、FP8、INT8 等 Tensor Core 模式;H100 SXM 公開表就列出呢批模式 [
10];
- 既有 codebase 已經依賴 GPU 導向 kernel、函式庫或者營運工具;
- 同一批硬件要支援多種 workload,而唔係只跑一個窄模型家族;
- 你想喺 Google Cloud 用 H100 VM;A3 machine types 文件列出 1、2、4 或 8 張 H100 GPU 嘅配置 [
1];
- 你更在意遷移風險,而唔係理論上某粒晶片可能有更高效率。
H100 最強嘅論點,唔係「每個 benchmark 都一定贏 TPU」。更實際嘅講法係:當需求會變、模型會換、精度會調,GPU 平台通常比較容易承接。
成本:唔好只比每 chip-hour 價錢
價錢好容易比較,但亦好容易比較錯。一個第三方比較曾列出 Google Cloud TPU v5e 約 $1.20 每 chip-hour,Azure ND H100 v5 例子則約 $12.84 每個 80GB H100 GPU-hour [4]。不過,呢個係跨雲、第三方、非官方嘅比較,只可以當方向參考,唔可以直接推論「TPU 一定平」。
更實際嘅成本比較,要一齊量度:
- 有效吞吐量:每秒 training step、sample、token,或者指定 batch size 下嘅 latency。
- 精度模式:FP8、BF16、FP16、TF32、FP32、FP64、INT8 之間唔可以直接互換;TPU 同 H100 表列嘅模式亦唔一樣 [
10][
11]。
- 記憶體容量同頻寬:大模型、長 context、batch size 可能令瓶頸由峰值 compute 轉到 HBM 或頻寬 [
10][
11]。
- 擴展行為:TPU pod topology 同 H100 VM 配置,會影響分散式訓練同 serving 設計 [
1][
11]。
- 使用率:閒置嘅加速器一樣燒錢,就算每小時單價睇落吸引都冇用。
- 工程成本:porting、compiler 調校、debug、monitoring、deployment 改動,隨時抵消 chip-hour 上嘅節省。
最後要問嘅唔係「邊粒 chip 平」,而係:每個有效輸出要幾多錢?可以係每個 training step、每個收斂模型、每個 inference token,或者達到指定 latency 目標嘅總成本。
決策矩陣
| 你最在意 | 較合理嘅預設選擇 | 原因 |
|---|---|---|
| TPU-friendly 深度學習,部署喺 Google Cloud | Google TPU | 公開 TPU scaling 文件強調 pod scale、HBM、頻寬、BF16/INT8 throughput 等模型擴展維度 [ |
| 精度模式要夠闊 | NVIDIA H100 GPU | H100 SXM 列出 FP64、FP32、TF32 Tensor Core、BF16/FP16 Tensor Core、FP8 Tensor Core、INT8 Tensor Core [ |
| 已經用 Google Cloud,但想保留選擇 | 兩邊都 benchmark | Google Cloud 有 A3 H100 機型文件,亦將 TPU 同 H100 A3 VM 放入 AI 基建組合 [ |
| 追求最低推論成本 | 兩邊都 benchmark | Google Cloud 有 AI inference performance-per-dollar 分析;第三方 chip-hour 例子只能當方向參考 [ |
| 既有 production stack 係 GPU-first | NVIDIA H100 GPU | 減少遷移風險,往往比理論上嘅晶片效率提升更實際。 |
Bottom line
用一句話講:TPU 更似專用 AI 加速器;H100 更似彈性加速平台。若果你個模型 TPU-friendly、深度學習成分重,而且本身已經打算上 Google Cloud,TPU 可以係更值得測試嘅 cost-performance 選項。若果你需要廣泛數值模式、混合工作負載、GPU 導向營運延續性,或者想減低遷移風險,NVIDIA H100 GPU 通常係較安全嘅預設選擇 [10][
11]。
最可靠嘅最終答案,仍然係用你真正要訓練或 serving 嘅模型做 workload-specific benchmark:量度吞吐量、記憶體行為、使用率、總成本,同埋工程投入。




