Perbandingan hardware AI sering dipersempit menjadi satu pertanyaan: apakah TPU lebih cepat daripada GPU? Cara pandang itu terlalu sederhana. Tensor Processing Unit atau TPU dari Google adalah akselerator AI khusus untuk pemrosesan tensor dalam sistem machine learning [2]. Sementara itu, NVIDIA H100 SXM adalah GPU pusat data dengan tabel spesifikasi publik yang mencakup banyak mode komputasi, dari FP64, FP32, TF32 Tensor Core, BF16/FP16, FP8, hingga INT8 [
10].
Agar pembahasan tidak mengawang, artikel ini memakai NVIDIA H100 SXM dan VM Google Cloud A3 berbasis H100 sebagai acuan GPU, lalu TPU v5e, v5p, dan v6e sebagai acuan TPU [1][
10][
11].
Jawaban singkat
- Pilih Google TPU bila workload Anda didominasi deep learning, bentuk modelnya cocok dengan eksekusi TPU, dan tim siap bekerja dengan pola scaling yang berorientasi TPU. Dokumen scaling JAX mencantumkan topologi pod, HBM per chip, bandwidth, serta angka BF16 dan INT8 untuk TPU v5e, v5p, dan v6e [
11].
- Pilih NVIDIA H100 GPU bila Anda butuh dukungan numerik yang lebih luas, workload campuran, atau risiko migrasi yang lebih rendah dari stack yang sudah GPU-first. NVIDIA mencantumkan H100 SXM dengan dukungan FP64, FP32, TF32 Tensor Core, BF16/FP16 Tensor Core, FP8 Tensor Core, dan INT8 Tensor Core, serta memori 80 GB HBM3 dan bandwidth memori 3,35 TB/detik [
10].
- Benchmark keduanya bila biaya menjadi penentu. Harga per chip-jam, FLOPS puncak, atau klaim vendor tidak cukup; yang penting adalah biaya per training step, per model yang konvergen, atau per token inference pada model Anda sendiri.
Arsitektur: spesialisasi vs fleksibilitas
TPU adalah ASIC khusus untuk pemrosesan tensor di sistem machine learning [2]. Spesialisasi ini menarik untuk workload tensor yang besar dan teratur. Jika jalur compiler, bentuk tensor, ukuran batch, dan strategi sharding cocok, chip dapat dimanfaatkan lebih efektif.
H100 mengambil jalur yang lebih fleksibel. GPU ini memang sangat dioptimalkan untuk AI melalui Tensor Core, tetapi tabel H100 SXM dari NVIDIA juga memuat performa FP64 dan FP32 konvensional, plus beberapa mode presisi rendah untuk Tensor Core [10]. Ini penting bila satu pool akselerator harus melayani eksperimen yang berbeda-beda, bukan hanya satu keluarga model deep learning.
Spesifikasi publik membantu, tetapi bukan benchmark
Tabel spesifikasi memberi gambaran awal, tetapi jangan membacanya sebagai perbandingan apel dengan apel. TPU dan GPU sering dilaporkan dengan mode presisi, asumsi sistem, dan jalur scaling yang berbeda.
| Akselerator | Memori publik | Bandwidth publik | Angka komputasi publik | Cara membacanya |
|---|---|---|---|---|
| TPU v5e | 16 GB HBM per chip | 8,1×10^11 byte/detik per chip | 1,97×10^14 FLOP/detik BF16 per chip; 3,94×10^14 FLOP/detik INT8 per chip | Opsi TPU dengan HBM per chip lebih kecil daripada v5p dan v6e pada tabel JAX; pastikan model muat di memori [ |
| TPU v5p | 96 GB HBM per chip | 2,8×10^12 byte/detik per chip | 4,59×10^14 FLOP/detik BF16 per chip; 9,18×10^14 FLOP/detik INT8 per chip | Baris TPU dengan HBM per chip terbesar di antara v5e, v5p, dan v6e pada tabel JAX [ |
| TPU v6e | 32 GB HBM per chip | 1,6×10^12 byte/detik per chip | 9,20×10^14 FLOP/detik BF16 per chip; 1,84×10^15 FLOP/detik INT8 per chip | Throughput BF16 dan INT8 per chip tertinggi di antara tiga baris TPU ini pada tabel JAX [ |
| NVIDIA H100 SXM | 80 GB HBM3 | 3,35 TB/detik | 34 TFLOPS FP64; 67 TFLOPS FP64 Tensor Core; 67 TFLOPS FP32; 989 TFLOPS TF32 Tensor Core; 1.979 TFLOPS BF16/FP16 Tensor Core; 3.958 TFLOPS FP8 Tensor Core; 3.958 TOPS INT8 Tensor Core | Cakupan presisi lebih luas, bandwidth memori tinggi, dan profil akselerator yang lebih umum [ |
Google Cloud juga mendokumentasikan tipe mesin A3 dengan 1, 2, 4, atau 8 GPU H100 terpasang dan 80 GB HBM3 per GPU [1]. Materi AI Hypercomputer dari Google Cloud juga menempatkan TPU dan VM A3 berbasis H100 sebagai bagian dari portofolio infrastruktur AI yang sama [
18]. Jadi, dalam praktiknya, pilihan ini tidak selalu berarti TPU di Google Cloud melawan GPU di cloud lain.
Kapan Google TPU paling masuk akal
TPU menjadi kandidat kuat ketika spesialisasi adalah keuntungan, bukan hambatan. Masukkan TPU ke daftar pendek bila:
- pekerjaan Anda adalah training atau inference deep learning yang didominasi operasi tensor besar [
2];
- model memiliki bentuk tensor, batch, dan pola sharding yang relatif stabil sehingga bisa dituning untuk utilisasi TPU;
- tim siap mengikuti praktik scaling TPU; dokumen scaling JAX menjadikan ukuran pod, ukuran host, kapasitas HBM, bandwidth, dan throughput BF16/INT8 sebagai dimensi perencanaan utama [
11];
- deployment memang sudah diarahkan ke Google Cloud;
- target bisnisnya adalah cost-performance terukur untuk beberapa model spesifik, bukan portabilitas maksimum untuk banyak jenis workload.
TPU bisa sangat menarik bila workload benar-benar membuat chip sibuk dan tidak memaksa penulisan ulang yang mahal. Namun, itu adalah hasil dari kecocokan workload, bukan sifat universal semua TPU. Google pernah memublikasikan materi performa-per-dolar untuk GPU dan TPU pada AI inference, yang menegaskan bahwa ekonomi serving bergantung pada model dan setup, bukan pada satu peringkat akselerator yang berlaku untuk semua kasus [16].
Kapan NVIDIA H100 GPU paling masuk akal
NVIDIA H100 biasanya lebih kuat sebagai pilihan default ketika fleksibilitas lebih penting daripada spesialisasi. GPU ini menarik bila:
- Anda membutuhkan mode presisi tinggi seperti FP64 atau FP32, sekaligus mode Tensor Core berpresisi lebih rendah. Tabel H100 SXM mencakup FP64, FP32, TF32, BF16, FP16, FP8, dan INT8 [
10];
- codebase sudah bergantung pada kernel, library, tooling observability, atau pipeline deployment yang berorientasi GPU;
- hardware yang sama harus melayani banyak tipe workload, bukan hanya satu keluarga model;
- Anda ingin memakai bentuk VM H100 di Google Cloud; tipe mesin A3 didokumentasikan dengan 1, 2, 4, atau 8 GPU H100 terpasang [
1];
- risiko migrasi lebih penting daripada potensi efisiensi chip secara teoritis.
Argumen terkuat untuk H100 bukan selalu bahwa satu GPU pasti mengalahkan satu chip TPU di semua benchmark. Keunggulan utamanya adalah fleksibilitas ketika kebutuhan teknis berubah.
Biaya: jangan hanya membandingkan harga per jam
Perbandingan harga terlihat mudah, tetapi sering menyesatkan. Sebuah perbandingan pihak ketiga mencantumkan Google Cloud TPU v5e sekitar US$1,20 per chip-jam dan contoh Azure ND H100 v5 sekitar US$12,84 per GPU H100 80 GB per jam [4]. Angka itu bersifat lintas-cloud dan tidak resmi, jadi lebih tepat dibaca sebagai petunjuk awal, bukan kesimpulan mutlak bahwa TPU selalu lebih murah.
Perbandingan biaya yang lebih sehat perlu mengukur seluruh sistem:
- Throughput yang berguna: training step per detik, sampel per detik, token per detik, atau latensi pada batch size target.
- Mode presisi: FP8, BF16, FP16, TF32, FP32, FP64, dan INT8 tidak bisa dipertukarkan begitu saja [
10][
11].
- Kapasitas dan bandwidth memori: model besar, konteks panjang, dan batch size bisa membuat bottleneck berpindah dari compute puncak ke memori [
10][
11].
- Perilaku saat diskalakan: topologi pod TPU dan konfigurasi VM H100 memengaruhi desain distributed training dan serving [
1][
11].
- Utilisasi: akselerator yang menganggur tetap mahal, sekalipun harga per jamnya tampak menarik.
- Biaya engineering: porting, kerja compiler, debugging, monitoring, dan perubahan deployment bisa menghapus penghematan chip-jam.
Metrik praktisnya adalah biaya per output yang benar-benar berguna: per training step, per model yang konvergen, per token inference, atau per target latensi.
Matriks keputusan
| Prioritas | Default yang lebih masuk akal | Alasannya |
|---|---|---|
| Deep learning yang ramah TPU di Google Cloud | Google TPU | Dokumen TPU menekankan skala pod, HBM, bandwidth, serta throughput BF16/INT8 sebagai dasar perencanaan scaling model [ |
| Dukungan presisi yang luas | NVIDIA H100 GPU | H100 SXM mencantumkan FP64, FP32, TF32 Tensor Core, BF16/FP16 Tensor Core, FP8 Tensor Core, dan INT8 Tensor Core [ |
| Deployment di Google Cloud, tetapi ingin opsi terbuka | Benchmark keduanya | Google Cloud mendokumentasikan tipe mesin A3 H100 dan juga menempatkan TPU serta VM A3 H100 dalam portofolio infrastruktur AI-nya [ |
| Biaya inference serendah mungkin | Benchmark keduanya | Google memublikasikan analisis performa-per-dolar untuk AI inference, sementara contoh harga chip-jam pihak ketiga bersifat lintas-cloud dan hanya indikatif [ |
| Stack produksi sudah GPU-first | NVIDIA H100 GPU | Menghindari risiko migrasi sering kali lebih bernilai daripada mengejar efisiensi akselerator secara teoritis. |
Kesimpulan
Anggap TPU sebagai akselerator AI yang lebih terspesialisasi, sementara H100 adalah platform akselerator yang lebih fleksibel. Jika model Anda ramah TPU, sangat berat di deep learning, dan memang akan berjalan di Google Cloud, TPU bisa menjadi kandidat cost-performance yang kuat. Jika Anda butuh banyak mode numerik, workload campuran, kontinuitas operasional berbasis GPU, atau risiko migrasi yang lebih rendah, NVIDIA H100 GPU biasanya menjadi pilihan default yang lebih aman [10][
11].
Jawaban akhirnya tetap harus datang dari benchmark spesifik workload: ukur throughput, perilaku memori, utilisasi, biaya total, dan usaha engineering pada model yang benar-benar akan Anda train atau serve.




