AIアクセラレータ選びでは、つい「TPUはGPUより速いのか」と聞きたくなります。けれども、この問いだけでは粗すぎます。GoogleのTensor Processing Unit、つまりTPUは、機械学習システムのテンソル処理に特化したアクセラレータです [2]。一方、NVIDIA H100 SXMは、FP64、FP32、TF32 Tensor Core、BF16/FP16 Tensor Core、FP8 Tensor Core、INT8 Tensor Coreまで公開仕様表に並ぶデータセンターGPUです [
10]。
つまり比較すべきは、看板上のピーク性能だけではありません。自分のモデルがどの精度で動くのか、HBM(高帯域幅メモリ)に収まるのか、分散構成をどう組むのか、チームのソフトウェアスタックに合うのか。そこまで含めて初めて、TPUかGPUかの判断になります。
この記事では、GPU側の代表としてNVIDIA H100 SXMとGoogle CloudのA3 H100 VM(仮想マシン)、TPU側の代表としてTPU v5e、v5p、v6eを見ます [1][
10][
11]。
まずの結論
- Google TPUを選びやすいケース:ワークロードがほぼ深層学習で、モデルの形状・バッチ・シャーディングがTPUにきれいに載り、チームがTPU前提のスケール設計に対応できる場合。JAXのスケーリング資料では、TPU v5e、v5p、v6eについてPodトポロジー、チップあたりHBM、帯域幅、BF16/INT8性能が整理されています [
11]。
- NVIDIA H100 GPUを選びやすいケース:数値精度の選択肢を広く取りたい、深層学習以外も混ざる、既存のGPU前提コードや運用を大きく変えたくない場合。H100 SXMの公開仕様には、FP64、FP32、TF32 Tensor Core、BF16/FP16 Tensor Core、FP8 Tensor Core、INT8 Tensor Coreが並び、80GB HBM3と3.35TB/sのメモリ帯域幅も示されています [
10]。
- コストが決め手なら、必ず実測:チップ時間単価やピークFLOPSだけでは不十分です。見るべきは、あなたのモデルでの学習ステップあたり、推論トークンあたり、または目標レイテンシあたりの総コストです。
アーキテクチャの違い:専用性か、柔軟性か
TPUの強みは、専用性です。テンソル処理に特化したASICとして設計されているため [2]、大きく規則的なテンソル演算が中心で、コンパイラ、テンソル形状、バッチサイズ、シャーディングがうまく合うと、チップを効率よく使いやすくなります。
H100は、より幅広い用途に寄せた選択肢です。AI向けにはTensor Coreが強力ですが、NVIDIAのH100 SXM仕様表には、従来型のFP64やFP32性能に加えて、TF32、BF16、FP16、FP8、INT8のTensor Coreモードも掲載されています [10]。同じアクセラレータ基盤で、異なる精度要件や異なる種類の実験を支えたい場合、この幅の広さは大きな意味を持ちます。
公開スペックは参考になるが、ベンチマークではない
TPUとGPUの仕様表は、比較の出発点として有用です。ただし、同じ土俵のベンチマークではありません。精度モード、システム構成、メモリ条件、分散の前提が違うため、数字を横に並べただけで勝敗は決まりません。
| アクセラレータ | 公開メモリ | 公開帯域幅 | 公開演算性能 | 実務上の読み方 |
|---|---|---|---|---|
| TPU v5e | チップあたり16GB HBM | チップあたり8.1e11 bytes/s | チップあたりBF16 1.97e14 FLOPs/s、INT8 3.94e14 FLOPs/s | JAX資料にあるv5e、v5p、v6eの中ではチップあたりHBMが少ない。モデルやバッチがメモリに収まるかを特に確認したい [ |
| TPU v5p | チップあたり96GB HBM | チップあたり2.8e12 bytes/s | チップあたりBF16 4.59e14 FLOPs/s、INT8 9.18e14 FLOPs/s | JAX資料のv5e、v5p、v6eの中では、チップあたりHBMが最も大きい行 [ |
| TPU v6e | チップあたり32GB HBM | チップあたり1.6e12 bytes/s | チップあたりBF16 9.20e14 FLOPs/s、INT8 1.84e15 FLOPs/s | この3つのTPU行の中では、チップあたりBF16とINT8の公開スループットが最も高い [ |
| NVIDIA H100 SXM | 80GB HBM3 | 3.35TB/s | FP64 34 TFLOPS、FP64 Tensor Core 67 TFLOPS、FP32 67 TFLOPS、TF32 Tensor Core 989 TFLOPS、BF16/FP16 Tensor Core 1,979 TFLOPS、FP8 Tensor Core 3,958 TFLOPS、INT8 Tensor Core 3,958 TOPS | 精度モードの幅が広く、メモリ帯域も高い。より汎用的なアクセラレータとして読みやすい [ |
Google Cloudは、H100を搭載するA3マシンタイプについて、1基、2基、4基、8基のH100 GPUを接続した構成と、GPUあたり80GB HBM3を文書化しています [1]。またGoogle CloudのAI Hypercomputer関連資料では、TPUと、NVIDIA H100 GPUで動くA3 VMが同じAIインフラの選択肢として扱われています [
18]。実務上は「Google CloudのTPUか、別クラウドのGPUか」ではなく、「同じクラウド上でTPUとH100をどう使い分けるか」という検討になることもあります。
Google TPUが向くワークロード
TPUは、専用性が制約ではなく強みになるときに候補の上位へ来ます。次の条件に当てはまるなら、検証する価値があります。
- 学習または推論の中心が、大規模なテンソル演算を多用する深層学習である [
2]。
- モデルのテンソル形状、バッチ、シャーディングが安定しており、TPU向けに最適化しやすい。
- TPUのPodサイズ、ホストサイズ、HBM容量、帯域幅、BF16/INT8スループットを前提にスケール設計できる。JAXの資料でも、これらはモデル拡張を考えるうえで主要な項目として整理されています [
11]。
- Google Cloudでの運用が前提で、最大の可搬性よりも、特定モデル群での実測コスト性能を重視する。
- 書き換えやデバッグの負担が、期待できる性能・コスト改善に見合う。
TPUは、チップを高い利用率で動かせるワークロードでは魅力的です。ただし、それはワークロードごとの結果であって、常にTPUが安い、常に速い、という意味ではありません。GoogleはAI推論におけるGPUとTPUの性能対費用に関する資料を公開しており、推論コストもモデルや構成ごとに見るべきテーマだと分かります [16]。
NVIDIA H100 GPUが向くワークロード
H100は、専用性よりも柔軟性が重要なときに強い選択肢です。特に次のような場合は、H100を第一候補にしやすいでしょう。
- FP64やFP32のような高精度モードと、BF16、FP16、FP8、INT8のような低精度Tensor Coreモードの両方が必要になる。H100 SXMの公開表には、これらの精度モードが掲載されています [
10]。
- 既存のコードベース、カーネル、ライブラリ、監視・運用の仕組みがGPU前提で作られている。
- ひとつのアクセラレータプールで、モデル学習、推論、実験、周辺処理など、複数タイプのワークロードを支えたい。
- Google Cloud上でH100搭載VMを使いたい。A3マシンタイプは、1基、2基、4基、8基のH100 GPUを接続した構成として文書化されています [
1]。
- 理論上のチップ効率よりも、移行リスクを抑えることが重要である。
H100を選ぶ最大の理由は、「あらゆるベンチマークで1基のGPUが1基のTPUを上回るから」ではありません。要件が変わっても対応しやすい、という柔軟性です。研究開発から本番運用まで同じ基盤で回したい組織では、この柔軟性そのものが価値になります。
コスト比較で見るべきもの
価格だけの比較は分かりやすく見えますが、危うい判断になりがちです。ある第三者比較では、Google Cloud TPU v5eが約1.20ドル/チップ時間、Azure ND H100 v5の例が80GB H100 GPUあたり約12.84ドル/GPU時間とされています [4]。ただし、これはクラウド横断の一例であり、同一条件の公式価格比較ではありません。したがって、「TPUのほうが常に安い」と結論づける材料ではなく、あくまで方向感として扱うべきです。
より実務的なコスト比較では、次を測ります。
- 有効スループット:学習ステップ/秒、サンプル/秒、トークン/秒、または目標バッチサイズでのレイテンシ。
- 精度モード:FP8、BF16、FP16、TF32、FP32、FP64、INT8の数字は互換ではありません [
10][
11]。
- メモリ容量と帯域幅:大規模モデル、長いコンテキスト、バッチサイズによって、ボトルネックはピーク演算性能からメモリ側へ移ります [
10][
11]。
- スケール時の挙動:TPUのPodトポロジーと、H100 VMの構成は、分散学習や推論基盤の設計に影響します [
1][
11]。
- 利用率:時間単価が安く見えても、アクセラレータが遊んでいれば総コストは下がりません。
- エンジニアリングコスト:移植、コンパイラ対応、デバッグ、監視、デプロイ変更の工数が、チップ時間の節約分を上回ることがあります。
最終的に見るべき指標は、学習ステップあたり、収束したモデルあたり、推論トークンあたり、または目標レイテンシ達成あたりの総コストです。
判断マトリクス
| 重視すること | まず見る候補 | 理由 |
|---|---|---|
| Google Cloud上でTPUに合う深層学習を大きく回したい | Google TPU | TPU資料では、Pod規模、HBM、帯域幅、BF16/INT8スループットがスケール設計の主要項目として示されています [ |
| 精度モードを広く取りたい | NVIDIA H100 GPU | H100 SXMは、FP64、FP32、TF32 Tensor Core、BF16/FP16 Tensor Core、FP8 Tensor Core、INT8 Tensor Coreを公開仕様に掲載しています [ |
| Google Cloud上で選択肢を残したい | 両方をベンチマーク | Google CloudはA3 H100マシンタイプを文書化し、TPUとH100搭載A3 VMをAIインフラの選択肢として扱っています [ |
| 推論コストを最小化したい | 両方をベンチマーク | GoogleはAI推論の性能対費用に関する資料を公開しており、第三者のチップ時間比較はクラウド横断の一例にすぎません [ |
| 既存の本番環境がGPU前提 | NVIDIA H100 GPU | 移行リスクを抑える価値が、理論上のチップ効率差を上回ることがあります。 |
まとめ
TPUは、より専用度の高いAIアクセラレータです。H100は、より柔軟性の高いアクセラレータプラットフォームです。モデルがTPUに合い、深層学習中心で、Google Cloudでの運用が前提なら、TPUは有力なコスト性能候補になります。一方で、幅広い数値精度、混在ワークロード、既存GPU運用との連続性、移行リスクの低さを重視するなら、NVIDIA H100 GPUのほうが無難な選択になりやすいでしょう [10][
11]。
ただし、最後に信頼できる答えはひとつだけです。実際に使うモデルで、スループット、メモリ挙動、利用率、総コスト、エンジニアリング工数を測ること。TPUかH100かは、スペック表ではなく、あなたのワークロードが決めます。




