很多 AI 硬件讨论最后都会变成一句话:TPU 和 GPU,到底谁更快?这个问题太粗了。
Google TPU(Tensor Processing Unit,张量处理器)是面向机器学习张量计算的专用 AI 加速器 [2]。NVIDIA H100 SXM 则是数据中心 GPU,公开规格覆盖 FP64、FP32、TF32 Tensor Core、BF16/FP16 Tensor Core、FP8 Tensor Core 和 INT8 Tensor Core 等多种模式 [
10]。前者强调专用化,后者强调灵活性。
为了让比较落到实处,本文把 NVIDIA H100 SXM 和 Google Cloud A3 H100 虚拟机作为 GPU 参照,把 TPU v5e、v5p、v6e 作为 TPU 参照 [1][
10][
11]。结论先说在前面:不要只看峰值 FLOPS,要看你的模型是否跑得合适、软件栈是否顺手、显存是否够、扩展是否顺、迁移成本是否可控。
先给结论:什么时候选谁
- 优先看 Google TPU:如果你的任务主要是深度学习,模型形状、batch 和切分方式比较适合 TPU,并且团队愿意按 TPU 的方式做扩展。JAX 的 TPU 扩展文档把 pod 拓扑、单芯片 HBM、带宽、BF16 和 INT8 吞吐都列为规划维度 [
11]。
- 优先看 NVIDIA H100 GPU:如果你需要更广的数值精度支持,或者同一批硬件要跑多种不同任务,H100 的灵活性更占优势。NVIDIA 公布的 H100 SXM 表格列出了 FP64、FP32、TF32 Tensor Core、BF16/FP16 Tensor Core、FP8 Tensor Core 和 INT8 Tensor Core,并配有 80GB HBM3 与 3.35TB/s 内存带宽 [
10]。
- 成本敏感就必须实测:芯片峰值、每小时价格和厂商说法都不能替代你自己模型上的测试。真正要比的是每个有效训练 step、每个推理 token,或者达到目标延迟时的总成本。
架构思路:专用化,还是灵活性
TPU 的核心卖点是专用化。作为面向张量处理的 ASIC,它适合大规模、规则性强的机器学习计算 [2]。当编译路径、张量形状、batch、模型切分都比较配合时,TPU 能更容易把硬件利用起来。
H100 的路线更宽。它当然为 AI 做了大量优化,尤其是 Tensor Core;但 H100 SXM 的公开规格同时覆盖传统 FP64、FP32,以及多种低精度 Tensor Core 模式 [10]。这对实际团队很重要:同一套加速器资源池,可能今天跑大模型训练,明天跑推理,后天又要支持需要不同精度的实验。
换句话说,TPU 像是为某类赛道优化的赛车;H100 更像一台适应面更广的高性能平台。谁更合适,要看你跑的到底是哪条路。
规格表怎么读:有用,但不能当成最终 benchmark
公开规格能帮你看清取舍,但不能直接等同于真实性能。TPU 和 GPU 的表格常常使用不同精度模式、不同系统假设、不同扩展路径;单看一个峰值数字,很容易误判。
| 加速器 | 公开内存指标 | 公开带宽指标 | 公开算力指标 | 更适合这样理解 |
|---|---|---|---|---|
| TPU v5e | 每芯片 16GB HBM | 每芯片 8.1e11 bytes/s | 每芯片 1.97e14 BF16 FLOPs/s;每芯片 3.94e14 INT8 FLOPs/s | 在 JAX 表格列出的 v5e、v5p、v6e 中,v5e 的单芯片 HBM 较小,模型和 batch 的内存适配要特别确认 [ |
| TPU v5p | 每芯片 96GB HBM | 每芯片 2.8e12 bytes/s | 每芯片 4.59e14 BF16 FLOPs/s;每芯片 9.18e14 INT8 FLOPs/s | 在这几项 TPU 参照中,v5p 的单芯片 HBM 最高 [ |
| TPU v6e | 每芯片 32GB HBM | 每芯片 1.6e12 bytes/s | 每芯片 9.20e14 BF16 FLOPs/s;每芯片 1.84e15 INT8 FLOPs/s | 在这些 TPU 行中,v6e 的单芯片 BF16 和 INT8 吞吐最高 [ |
| NVIDIA H100 SXM | 80GB HBM3 | 3.35TB/s | 34 TFLOPS FP64;67 TFLOPS FP64 Tensor Core;67 TFLOPS FP32;989 TFLOPS TF32 Tensor Core;1,979 TFLOPS BF16/FP16 Tensor Core;3,958 TFLOPS FP8 Tensor Core;3,958 TOPS INT8 Tensor Core | 精度覆盖更广,内存带宽高,更偏通用型加速器平台 [ |
还要注意,Google Cloud 上并不是只有 TPU。Google Cloud 文档列出了使用 H100 的 A3 机器类型,可挂载 1、2、4 或 8 块 H100 GPU,并且每块 GPU 配 80GB HBM3 [1]。Google Cloud 的 AI Hypercomputer 相关材料也把 TPU 和运行 H100 GPU 的 A3 VM 放在同一套 AI 基础设施组合中 [
18]。因此,在实际采购或上云时,问题不一定是 Google Cloud 的 TPU 对比别处的 GPU,也可能是在同一云平台内比较两条路线。
什么情况下 TPU 更值得优先评估
如果专用化带来的是效率,而不是束缚,TPU 就应该排在候选名单前面。典型场景包括:
- 任务主要是由大规模张量运算主导的深度学习训练或推理 [
2];
- 模型形状、batch、大规模切分方式相对稳定,能够围绕 TPU 做优化;
- 团队愿意采用 TPU 导向的扩展实践;JAX 扩展文档把 pod 规模、host size、HBM 容量、带宽、BF16/INT8 吞吐等作为核心规划因素 [
11];
- 部署环境已经明确是 Google Cloud;
- 业务目标是少数模型上的实测性价比,而不是让硬件适配尽可能多的工作负载。
TPU 的价值往往出现在芯片能被持续喂饱、模型不用付出高昂改写成本的时候。但这不是一句“TPU 一定更快”就能概括的。Google 曾发布过关于 GPU 和 TPU 在 AI 推理中每美元性能的材料,这也说明推理经济性取决于模型和配置,而不是存在一个放之四海皆准的加速器排名 [16]。
什么情况下 H100 GPU 更稳妥
如果灵活性比专用化更重要,NVIDIA H100 通常更合适。尤其是这些情况:
- 你需要 FP64、FP32 等较高精度模式,同时也需要 TF32、BF16、FP16、FP8、INT8 等 Tensor Core 模式;H100 SXM 的公开表格覆盖这些条目 [
10];
- 现有代码、kernel、库、监控和部署流程已经围绕 GPU 生态搭建;
- 同一批硬件要服务多类任务,而不是只服务一个相对固定的模型家族;
- 你希望在 Google Cloud 上使用 H100 VM 形态;A3 机器类型文档显示可挂载 1、2、4 或 8 块 H100 GPU [
1];
- 迁移风险比理论上的芯片效率提升更重要。
H100 最强的理由,不一定是“每个 benchmark 都能赢”。更现实的理由是:当需求变化时,GPU 平台通常更容易接住变化。
成本:不要只比芯片小时价
价格很容易拿来做对比,但也最容易误导。有第三方比较曾列出 Google Cloud TPU v5e 约为每芯片小时 1.20 美元,Azure ND H100 v5 示例约为每块 80GB H100 GPU 小时 12.84 美元 [4]。但这属于跨云比较,而且不是官方统一口径,所以只能当作方向性信息,不能直接得出“TPU 一定更便宜”的结论。
更好的成本比较,应当把整套系统算进去:
- 有效吞吐:每秒训练 step、每秒样本数、每秒 token,或者目标 batch 下的延迟。
- 精度模式:FP8、BF16、FP16、TF32、FP32、FP64、INT8 的数字不能互相替代 [
10][
11]。
- 内存容量和带宽:大模型、长上下文和 batch size 可能让瓶颈从峰值算力转向内存 [
10][
11]。
- 扩展行为:TPU pod 拓扑和 H100 VM 配置会影响分布式训练与服务架构 [
1][
11]。
- 利用率:闲置的加速器再便宜也贵;高峰值但低利用率同样不划算。
- 工程成本:迁移、编译器适配、调试、监控、上线流程改造,都可能吃掉芯片小时价上的优势。
所以,最实用的指标不是单块芯片多少钱,而是每个有效输出多少钱:每个训练 step、每个收敛后的模型、每个推理 token,或者每个目标延迟。
决策矩阵
| 你的优先级 | 更合理的默认选择 | 原因 |
|---|---|---|
| Google Cloud 上的 TPU 友好型深度学习 | Google TPU | 公开 TPU 文档把 pod 扩展、HBM、带宽、BF16/INT8 吞吐作为模型扩展规划重点 [ |
| 需要广泛精度支持 | NVIDIA H100 GPU | H100 SXM 列出 FP64、FP32、TF32 Tensor Core、BF16/FP16 Tensor Core、FP8 Tensor Core 和 INT8 Tensor Core 等模式 [ |
| 已在 Google Cloud,但希望保留选择空间 | 两者都 benchmark | Google Cloud 既有 A3 H100 机器类型,也把 TPU 和 H100 A3 VM 放在 AI 基础设施组合中 [ |
| 追求最低推理成本 | 两者都 benchmark | Google 发布过 AI 推理每美元性能分析;第三方芯片小时价格示例只能作方向参考,且涉及跨云比较 [ |
| 已有 GPU 优先生态的生产系统 | NVIDIA H100 GPU | 降低迁移风险,可能比追求理论上的加速器效率提升更有价值。 |
最后怎么选
把 TPU 视为更专用的 AI 加速器,把 H100 视为更灵活的加速器平台。若你的模型高度适合 TPU、任务主要是深度学习,并且部署本来就面向 Google Cloud,TPU 很可能是更值得测试的性价比方案。若你需要更广的数值模式、混合工作负载、GPU 生态连续性或更低迁移风险,NVIDIA H100 GPU 通常是更安全的默认选择 [10][
11]。
真正可靠的答案只有一个:用你计划训练或服务的那个模型,实测吞吐、内存行为、利用率、总成本和工程投入。谁在你的 workload 上以更低成本稳定产出,谁才是正确选择。




