AI 하드웨어 비교는 흔히 “TPU가 GPU보다 빠른가?”라는 질문으로 시작합니다. 하지만 실무에서는 이 질문만으로 부족합니다. Google TPU는 머신러닝 시스템의 텐서 처리를 위해 설계된 전용 ASIC 계열이고 [2], NVIDIA H100 SXM은 FP64, FP32, TF32 Tensor Core, BF16/FP16, FP8, INT8까지 여러 정밀도 모드를 공개 스펙표에 올린 데이터센터 GPU입니다 [
10]. 결국 선택 기준은 최고 속도 하나가 아니라 모델이 하드웨어에 얼마나 잘 맞는지, 팀의 소프트웨어 스택과 배포 환경이 무엇인지, 필요한 정밀도와 메모리가 어느 정도인지입니다.
비교를 구체화하기 위해 여기서는 GPU 쪽은 NVIDIA H100 SXM과 Google Cloud의 A3 H100 VM, TPU 쪽은 TPU v5e, v5p, v6e를 기준으로 봅니다 [1][
10][
11].
먼저 보는 결론
- Google TPU를 우선 검토할 때: 워크로드가 대부분 딥러닝이고, 모델이 TPU 실행 방식에 잘 맞으며, 팀이 TPU 중심의 확장 방식에 익숙할 때입니다. JAX 확장 문서는 TPU v5e, v5p, v6e에 대해 Pod 토폴로지, 칩당 HBM, 대역폭, BF16 및 INT8 처리량을 핵심 계획 지표로 제시합니다 [
11].
- NVIDIA H100 GPU를 우선 검토할 때: 더 넓은 정밀도 지원, 여러 종류의 워크로드, 기존 GPU 중심 스택에서의 낮은 이전 리스크가 중요할 때입니다. NVIDIA는 H100 SXM에 대해 FP64, FP32, TF32 Tensor Core, BF16/FP16 Tensor Core, FP8 Tensor Core, INT8 Tensor Core 모드와 80GB HBM3, 3.35TB/s 메모리 대역폭을 공개하고 있습니다 [
10].
- 비용이 핵심이면 둘 다 벤치마크해야 합니다: 피크 스펙, 칩 시간당 가격, 공급사 주장만으로는 충분하지 않습니다. 실제 모델에서 유효한 학습 단계당 비용이나 추론 토큰당 비용을 직접 재야 합니다.
핵심 차이: 전용성과 유연성
TPU는 텐서 처리에 초점을 맞춘 전용 ASIC입니다 [2]. 이 전용성이 장점으로 작동하는 순간이 있습니다. 컴파일러 경로, 텐서 shape, 배치, 샤딩 방식이 TPU에 잘 맞으면 칩을 높은 활용률로 계속 돌릴 수 있기 때문입니다.
H100은 더 넓은 길을 택합니다. AI용 Tensor Core에 강하게 최적화돼 있지만, H100 SXM 공개 스펙표에는 FP64와 FP32 같은 전통적 수치 연산 성능, 그리고 TF32, BF16/FP16, FP8, INT8 Tensor Core 모드가 함께 올라와 있습니다 [10]. 하나의 가속기 풀에서 여러 정밀도 요구사항과 다양한 실험을 처리해야 한다면 이 폭이 중요해집니다.
공개 스펙은 출발점일 뿐, 벤치마크는 아닙니다
스펙표는 선택의 방향을 보여주지만, TPU와 GPU 수치를 그대로 1대1 비교하기는 어렵습니다. 서로 다른 정밀도 모드, 시스템 구성, 확장 방식, 메모리 조건을 기준으로 숫자가 제시되기 때문입니다.
| 가속기 | 공개 메모리 수치 | 공개 대역폭 수치 | 공개 연산 수치 | 이렇게 읽어야 합니다 |
|---|---|---|---|---|
| TPU v5e | 칩당 16GB HBM | 칩당 8.1e11 bytes/s | 칩당 1.97e14 BF16 FLOPs/s, 3.94e14 INT8 FLOPs/s | JAX 표의 v5e, v5p, v6e 중 칩당 HBM이 가장 작습니다. 모델 메모리 적합성을 먼저 확인해야 합니다 [ |
| TPU v5p | 칩당 96GB HBM | 칩당 2.8e12 bytes/s | 칩당 4.59e14 BF16 FLOPs/s, 9.18e14 INT8 FLOPs/s | JAX 표의 v5e, v5p, v6e 중 칩당 HBM이 가장 큰 TPU 항목입니다 [ |
| TPU v6e | 칩당 32GB HBM | 칩당 1.6e12 bytes/s | 칩당 9.20e14 BF16 FLOPs/s, 1.84e15 INT8 FLOPs/s | 이 세 TPU 항목 중 칩당 BF16 및 INT8 처리량이 가장 높게 제시돼 있습니다 [ |
| NVIDIA H100 SXM | 80GB HBM3 | 3.35TB/s | 34 TFLOPS FP64, 67 TFLOPS FP64 Tensor Core, 67 TFLOPS FP32, 989 TFLOPS TF32 Tensor Core, 1,979 TFLOPS BF16/FP16 Tensor Core, 3,958 TFLOPS FP8 Tensor Core, 3,958 TOPS INT8 Tensor Core | 정밀도 선택 폭이 넓고 메모리 대역폭이 높은, 더 범용적인 데이터센터 가속기 프로필입니다 [ |
Google Cloud는 H100을 탑재한 A3 머신 타입도 문서화하고 있습니다. A3는 1개, 2개, 4개, 8개의 H100 GPU를 붙인 구성이 있으며 GPU당 80GB HBM3를 제공합니다 [1]. 또한 Google Cloud의 AI Hypercomputer 자료는 TPU와 H100 GPU 기반 A3 VM을 같은 AI 인프라 포트폴리오 안에서 설명합니다 [
18]. 즉 현실의 선택지는 항상 “Google Cloud에서는 TPU, 다른 곳에서는 GPU”처럼 단순하지 않습니다.
Google TPU가 더 잘 맞는 경우
TPU는 전용성이 제약이 아니라 장점이 되는 워크로드에서 강한 후보가 됩니다. 다음 조건에 가깝다면 우선순위를 높게 둘 만합니다.
- 작업이 대규모 텐서 연산 중심의 딥러닝 학습 또는 추론입니다 [
2].
- 모델의 shape, 배치, 샤딩 패턴이 안정적이고 TPU 활용률을 높이도록 튜닝할 수 있습니다.
- 팀이 TPU 중심 확장 방식에 맞춰 일할 준비가 돼 있습니다. JAX 확장 문서는 Pod 크기, 호스트 크기, HBM 용량, 대역폭, BF16/INT8 처리량을 TPU 계획의 주요 축으로 다룹니다 [
11].
- 배포 환경이 이미 Google Cloud로 정해져 있습니다.
- 목표가 여러 워크로드의 최대 범용성이 아니라, 특정 모델군에서 측정 가능한 비용 대비 성능을 끌어올리는 것입니다.
TPU가 매력적인 순간은 워크로드가 칩을 계속 바쁘게 만들고, 이식이나 재작성 비용을 크게 만들지 않을 때입니다. 다만 이것은 모든 모델에 자동으로 적용되는 성질이 아니라 워크로드별 결과입니다. Google은 AI 추론에서 GPU와 TPU의 달러당 성능 자료를 공개한 바 있는데, 이 역시 서빙 경제성이 단일한 가속기 순위가 아니라 모델과 구성에 따라 달라진다는 점을 보여줍니다 [16].
NVIDIA H100 GPU가 더 잘 맞는 경우
H100은 전용 효율보다 유연성이 더 중요한 상황에서 강한 후보입니다. 특히 다음 조건에 해당한다면 H100이 더 안전한 선택일 수 있습니다.
- FP64나 FP32 같은 고정밀 모드와 저정밀 Tensor Core 모드를 모두 고려해야 합니다. H100 SXM 공개 표에는 FP64, FP32, TF32 Tensor Core, BF16/FP16 Tensor Core, FP8 Tensor Core, INT8 Tensor Core 항목이 함께 포함돼 있습니다 [
10].
- 기존 코드베이스가 GPU 지향 커널, 라이브러리, 운영 도구에 의존하고 있습니다.
- 같은 하드웨어 풀에서 하나의 모델군이 아니라 여러 유형의 워크로드를 처리해야 합니다.
- Google Cloud에서 H100 VM 형태를 쓰고 싶습니다. A3 머신 타입은 1개, 2개, 4개, 8개의 H100 GPU 구성을 문서화하고 있습니다 [
1].
- 이론상 칩 효율보다 마이그레이션 리스크를 낮추는 것이 더 중요합니다.
H100의 가장 큰 장점은 모든 벤치마크에서 언제나 단일 GPU가 단일 TPU 칩을 이긴다는 뜻이 아닙니다. 요구사항이 바뀔 때 더 넓게 대응할 수 있는 가속기라는 점이 핵심입니다.
비용: 칩 시간당 가격만 비교하면 위험합니다
가격 비교는 매력적이지만 쉽게 오해를 부릅니다. 한 타사 비교 자료는 Google Cloud TPU v5e를 약 1.20달러/칩-시간, Azure ND H100 v5 예시를 약 12.84달러/80GB H100 GPU-시간으로 제시했습니다 [4]. 하지만 이는 클라우드 사업자가 다른 비공식 비교이므로 “TPU가 항상 더 싸다”는 결론이 아니라 방향성 참고 자료로 봐야 합니다.
더 나은 비용 비교는 전체 시스템을 기준으로 해야 합니다.
- 유효 처리량: 초당 학습 step, 초당 sample, 초당 token, 목표 batch size에서의 latency를 봅니다.
- 정밀도 모드: FP8, BF16, FP16, TF32, FP32, FP64, INT8 수치는 서로 바꿔 쓸 수 없습니다 [
10][
11].
- 메모리 용량과 대역폭: 대형 모델, 긴 context, 큰 batch size에서는 피크 연산 성능보다 메모리가 병목이 될 수 있습니다 [
10][
11].
- 확장 방식: TPU Pod 토폴로지와 H100 VM 구성은 분산 학습과 서빙 설계에 직접 영향을 줍니다 [
1][
11].
- 활용률: 시간당 가격이 낮아 보여도 가속기가 놀고 있으면 비용은 빠르게 커집니다.
- 엔지니어링 비용: 포팅, 컴파일러 대응, 디버깅, 모니터링, 배포 변경 비용이 칩 시간당 절감액을 넘어설 수 있습니다.
실무에서 봐야 할 지표는 결국 유용한 산출물 하나당 비용입니다. 학습 step당 비용, 수렴한 모델 하나당 비용, 추론 token당 비용, 또는 목표 latency를 만족하는 비용으로 계산해야 합니다.
선택 매트릭스
| 우선순위 | 기본 후보 | 이유 |
|---|---|---|
| Google Cloud에서 TPU 친화적인 딥러닝 | Google TPU | TPU 문서는 모델 확장을 위해 Pod 규모, HBM, 대역폭, BF16/INT8 처리량을 주요 계획 지표로 제시합니다 [ |
| 폭넓은 정밀도 지원 | NVIDIA H100 GPU | H100 SXM은 FP64, FP32, TF32 Tensor Core, BF16/FP16 Tensor Core, FP8 Tensor Core, INT8 Tensor Core 모드를 공개 스펙에 포함합니다 [ |
| Google Cloud 배포와 선택지 확보 | 둘 다 벤치마크 | Google Cloud는 A3 H100 머신 타입을 문서화하고, TPU와 H100 A3 VM을 AI 인프라 포트폴리오 안에서 함께 설명합니다 [ |
| 최저 추론 비용 | 둘 다 벤치마크 | Google은 AI 추론의 달러당 성능 분석을 공개했지만, 타사 칩 시간당 가격 예시는 클라우드가 다른 방향성 자료입니다 [ |
| 기존 GPU 중심 운영 스택 | NVIDIA H100 GPU | 마이그레이션 리스크를 낮추는 것이 이론적 가속기 효율보다 더 중요할 수 있습니다. |
결론
TPU는 더 특화된 AI 가속기이고, H100은 더 유연한 가속기 플랫폼에 가깝습니다. 모델이 TPU에 잘 맞고, 딥러닝 비중이 높으며, 배포 경로가 이미 Google Cloud라면 TPU가 비용 대비 성능 면에서 더 좋은 선택이 될 수 있습니다 [11]. 반대로 폭넓은 정밀도 모드, 혼합 워크로드, GPU 중심 운영 연속성, 낮은 이전 리스크가 중요하다면 NVIDIA H100 GPU가 더 안전한 기본값입니다 [
10].
마지막 답은 스펙표가 아니라 실제 워크로드 벤치마크에서 나옵니다. 학습하거나 서빙하려는 바로 그 모델로 처리량, 메모리 병목, 활용률, 총비용, 엔지니어링 부담을 함께 측정해야 합니다.




