AI 硬體比較很容易被簡化成一句話:TPU 和 GPU 到底誰比較快?但這個問法太粗。Google 的 Tensor Processing Unit(TPU,張量處理單元)是為機器學習張量運算設計的專用 AI 加速器 [2];NVIDIA H100 SXM 則是資料中心 GPU,公開規格涵蓋 FP64、FP32、TF32 Tensor Core、BF16/FP16、FP8 與 INT8 等多種模式 [
10]。
換句話說,這不是單純「誰贏誰輸」的題目,而是要看你的模型、程式碼、精度、記憶體、擴展方式與部署環境。本文以 NVIDIA H100 SXM 與 Google Cloud A3 H100 VM 作為 GPU 參考點,並以 TPU v5e、v5p、v6e 作為 TPU 參考點 [1][
10][
11]。
先講結論:不要選最快,選最合拍
- 選 Google TPU:當工作負載主要是深度學習,模型形狀、批次與分片方式能良好對應 TPU 執行路徑,而且團隊願意採用 TPU 導向的擴展方式。JAX 的 TPU 擴展文件列出 TPU v5e、v5p、v6e 的 pod 拓撲、每晶片 HBM、頻寬、BF16 與 INT8 數據 [
11]。
- 選 NVIDIA H100 GPU:當你需要更廣的數值格式支援、要處理混合型工作負載,或既有系統已經建立在 GPU 生態上。NVIDIA 公開列出的 H100 SXM 規格支援 FP64、FP32、TF32 Tensor Core、BF16/FP16 Tensor Core、FP8 Tensor Core 與 INT8 Tensor Core,並配備 80GB HBM3 與 3.35TB/s 記憶體頻寬 [
10]。
- 成本是關鍵時,兩邊都要實測:峰值 FLOPS、晶片小時價格與供應商說法,都不能取代你在實際模型上量到的「每個有效訓練步驟」或「每個推論 token」成本。
架構差異:TPU 更專用,H100 更有彈性
TPU 是針對機器學習系統中的張量處理而設計的專用 ASIC [2]。這種專用化,是 TPU 在大型、規律張量工作負載上具吸引力的原因:如果編譯器路徑、張量形狀、批次大小與分片策略都配合得好,就更有機會讓晶片保持高利用率。
H100 的路線則更廣。它透過 Tensor Core 深度優化 AI 運算,但 NVIDIA 的 H100 SXM 規格表也列出傳統 FP64、FP32,以及多種低精度 Tensor Core 模式 [10]。如果同一批加速器要支援不同實驗、不同精度,或不全是單一深度學習任務,這種彈性就很有價值。
公開規格可以參考,但不能直接當成跑分
規格表能看出取捨方向,卻不等於公平的 apples-to-apples benchmark。TPU 與 GPU 常用不同精度模式、不同系統假設、不同擴展方式來呈現數字;只看峰值算力,很容易看錯重點。
| 加速器 | 公開記憶體數字 | 公開頻寬數字 | 公開運算數字 | 比較時應怎麼讀 |
|---|---|---|---|---|
| TPU v5e | 每晶片 16GB HBM | 每晶片 8.1e11 bytes/s | 每晶片 1.97e14 BF16 FLOPs/s;3.94e14 INT8 FLOPs/s | 在 JAX 表格中的 v5e、v5p、v6e 之間,v5e 每晶片 HBM 較少;要特別確認模型是否裝得下 [ |
| TPU v5p | 每晶片 96GB HBM | 每晶片 2.8e12 bytes/s | 每晶片 4.59e14 BF16 FLOPs/s;9.18e14 INT8 FLOPs/s | 在這三個 TPU 列項中,v5p 的每晶片 HBM 最高 [ |
| TPU v6e | 每晶片 32GB HBM | 每晶片 1.6e12 bytes/s | 每晶片 9.20e14 BF16 FLOPs/s;1.84e15 INT8 FLOPs/s | 在這三個 TPU 列項中,v6e 的每晶片 BF16 與 INT8 吞吐量最高 [ |
| NVIDIA H100 SXM | 80GB HBM3 | 3.35TB/s | 67 TFLOPS FP32;989 TFLOPS TF32 Tensor Core;1,979 TFLOPS BF16/FP16 Tensor Core;3,958 TFLOPS FP8 Tensor Core;3,958 TOPS INT8 Tensor Core | 精度覆蓋廣、記憶體頻寬高,也更像通用加速器平台 [ |
如果你已經在 Google Cloud 上,選項也不一定是「TPU 對上別家雲端的 GPU」。Google Cloud 文件列出搭載 H100 的 A3 機型,可配置 1、2、4 或 8 張 H100 GPU,每張 GPU 為 80GB HBM3 [1]。Google Cloud 的 AI Hypercomputer 相關內容,也把 TPU 與搭載 NVIDIA H100 GPU 的 A3 VM 放在同一套 AI 基礎架構組合中描述 [
18]。
什麼情況適合優先看 Google TPU?
當「專用化」是加分而不是限制時,TPU 就應該進入候選清單。尤其是以下情境:
- 工作是以大型張量運算為主的深度學習訓練或推論 [
2];
- 模型形狀、批次大小與分片方式相對穩定,能針對 TPU 利用率調校;
- 團隊願意採用 TPU 導向的擴展實務;JAX 擴展文件把 pod 大小、host size、HBM 容量、頻寬、BF16/INT8 吞吐量列為規劃模型擴展的核心維度 [
11];
- Google Cloud 已經是預定部署環境;
- 商業目標是針對少數模型取得實測成本效益,而不是讓同一套硬體支援各式各樣的工作負載。
TPU 的吸引力,通常來自「工作負載真的能把晶片餵飽」,而不是 TPU 天生在所有情境都比較快。Google 也發表過 AI 推論中 GPU 與 TPU 的每美元效能分析;這類比較提醒我們,推論經濟性必須回到實際模型與設定來看,而不是只看單一硬體排名 [16]。
什麼情況適合優先看 NVIDIA H100?
如果彈性比專用效率更重要,H100 往往是較安全的預設選項。特別是以下情境:
- 你同時需要 FP64、FP32 這類較高精度模式,以及低精度 Tensor Core 模式;NVIDIA H100 SXM 公開表格列出 FP64、FP32、TF32、BF16、FP16、FP8 與 INT8 項目 [
10];
- 既有程式碼已依賴 GPU 導向 kernel、函式庫或維運工具;
- 同一批硬體要支援多種工作負載,而不是只服務一個狹窄模型家族;
- 你希望在 Google Cloud 上使用 H100 VM;A3 機型文件列出可掛載 1、2、4 或 8 張 H100 GPU 的配置 [
1];
- 遷移風險比理論上的晶片效率提升更重要。
H100 最強的論點,不一定是「每個 benchmark 都打敗 TPU」。更常見的價值是:當需求變動、模型換代、精度策略調整時,GPU 平台比較不容易把團隊鎖死。
成本比較:不要只看每小時價格
價格表很誘人,但也很容易誤導。有第三方比較曾列出 Google Cloud TPU v5e 約為每晶片小時 1.20 美元,Azure ND H100 v5 範例約為每張 80GB H100 GPU 小時 12.84 美元 [4]。不過這是跨雲端、且非官方的比較,最多只能當方向性參考,不能直接推論「TPU 一定比較便宜」。
更好的做法,是比較整套系統成本:
- 有效吞吐量:每秒訓練步驟、每秒樣本數、每秒 token,或目標批次大小下的延遲。
- 精度模式:FP8、BF16、FP16、TF32、FP32、FP64、INT8 的數字不能互換 [
10][
11]。
- 記憶體容量與頻寬:大型模型、長上下文與批次大小,可能讓瓶頸從峰值算力轉向記憶體 [
10][
11]。
- 擴展行為:TPU pod 拓撲與 H100 VM 配置,會影響分散式訓練與推論服務設計 [
1][
11]。
- 利用率:閒置的加速器再便宜也浪費;高峰值規格若跑不滿,也不會自動轉成低成本。
- 工程成本:移植、編譯器調校、除錯、監控與部署變更,可能吃掉晶片小時省下來的錢。
真正該看的指標,是每個有用輸出的成本:每個訓練步驟、每個收斂模型、每個推論 token,或每個延遲目標。
選型矩陣
| 你的優先順序 | 較適合的預設選擇 | 原因 |
|---|---|---|
| 在 Google Cloud 上跑 TPU 友善的深度學習 | Google TPU | TPU 文件強調 pod 規模、HBM、頻寬與 BF16/INT8 吞吐量,這些都是模型擴展規劃的核心 [ |
| 需要廣泛精度支援 | NVIDIA H100 GPU | H100 SXM 列出 FP64、FP32、TF32 Tensor Core、BF16/FP16 Tensor Core、FP8 Tensor Core 與 INT8 Tensor Core 模式 [ |
| 已在 Google Cloud,但想保留選擇彈性 | 兩者都實測 | Google Cloud 文件列出 A3 H100 機型,也在 AI 基礎架構組合中描述 TPU 與 H100 A3 VM [ |
| 追求最低推論成本 | 兩者都實測 | Google 發表過 AI 推論每美元效能分析;第三方晶片小時價格則只能作方向性、跨雲端參考 [ |
| 既有生產系統以 GPU 為核心 | NVIDIA H100 GPU | 降低遷移風險,往往比理論上的單晶片效率提升更實際。 |
最後判斷:用你的模型說話
可以把 TPU 視為更專用的 AI 加速器,把 H100 視為更有彈性的加速器平台。如果你的模型 TPU 友善、深度學習比重高,而且已經打算部署在 Google Cloud,TPU 可能是更值得測試的成本效益選項。若你需要廣泛數值格式、混合工作負載、延續 GPU 導向維運流程,或希望降低遷移風險,NVIDIA H100 GPU 通常是比較穩妥的預設選擇 [10][
11]。
但最後答案不該來自規格表。可靠的決策,應該是針對你要訓練或服務的實際模型,量測吞吐量、記憶體行為、利用率、總成本與工程投入後,再決定 TPU 或 GPU。




