Comparar aceleradores de IA suele reducirse a una pregunta demasiado simple: ¿es una TPU más rápida que una GPU? En la práctica, la pregunta útil es otra: ¿qué encaja mejor con tu modelo, tu software y tu forma de desplegar?
La TPU de Google es un ASIC especializado para procesamiento de tensores en sistemas de aprendizaje automático [2]. La H100 SXM de NVIDIA, en cambio, es una GPU de centro de datos cuya ficha pública cubre FP64, FP32, TF32 Tensor Core, BF16/FP16, FP8 e INT8 [
10]. Esa diferencia marca casi toda la decisión: especialización frente a flexibilidad.
Para aterrizar la comparación, este artículo toma como referencia la NVIDIA H100 SXM y las máquinas A3 de Google Cloud con H100 por el lado GPU, y las TPU v5e, v5p y v6e por el lado TPU [1][
10][
11].
Veredicto rápido
- Elige Google TPU si la carga es principalmente aprendizaje profundo, el modelo se adapta bien a la ejecución en TPU y tu equipo está cómodo con prácticas de escalado orientadas a TPU. La documentación pública de escalado de JAX enumera topologías de pod, HBM por chip, ancho de banda y cifras BF16 e INT8 para TPU v5e, v5p y v6e [
11].
- Elige NVIDIA H100 si necesitas más modos numéricos, cargas mixtas o menor riesgo al migrar desde una pila ya pensada para GPU. NVIDIA lista para H100 SXM modos FP64, FP32, TF32 Tensor Core, BF16/FP16 Tensor Core, FP8 Tensor Core e INT8 Tensor Core, además de 80 GB de HBM3 y 3,35 TB/s de ancho de banda de memoria [
10].
- Prueba ambas si el coste es el factor decisivo. Las cifras pico, los precios por hora y las afirmaciones de proveedor no sustituyen una medición del coste por paso de entrenamiento útil o por token de inferencia en tu modelo concreto.
Arquitectura: especialización frente a margen de maniobra
Las TPU están diseñadas específicamente para operaciones tensoriales de aprendizaje automático [2]. Esa especialización puede ser una ventaja clara en modelos grandes y regulares: si el compilador, las formas de los tensores, los lotes y el particionado encajan bien, es más fácil mantener ocupado el hardware.
La H100 va por una vía más amplia. Está muy optimizada para IA mediante Tensor Cores, pero la tabla pública de H100 SXM también incluye rendimiento FP64 y FP32 convencional, junto con varios modos Tensor Core de menor precisión [10]. Esa amplitud importa cuando el mismo conjunto de aceleradores debe servir para experimentos distintos, necesidades de precisión cambiantes o cargas que no son siempre el mismo entrenamiento de deep learning.
Las especificaciones ayudan, pero no son un benchmark
Las tablas de especificaciones muestran la forma del intercambio, pero no comparan manzanas con manzanas. TPU y GPU suelen publicar modos de precisión distintos, suposiciones de sistema distintas y rutas de escalado distintas.
| Acelerador | Memoria pública | Ancho de banda público | Cómputo publicado | Lectura práctica |
|---|---|---|---|---|
| TPU v5e | 16 GB HBM por chip | 8,1 × 10^11 bytes/s por chip | 1,97 × 10^14 FLOP/s BF16; 3,94 × 10^14 FLOP/s INT8 | Es la opción TPU con menos HBM por chip entre v5e, v5p y v6e en la tabla de JAX; conviene revisar con cuidado si el modelo cabe [ |
| TPU v5p | 96 GB HBM por chip | 2,8 × 10^12 bytes/s por chip | 4,59 × 10^14 FLOP/s BF16; 9,18 × 10^14 FLOP/s INT8 | Es la fila TPU con más HBM por chip entre v5e, v5p y v6e en la tabla de JAX [ |
| TPU v6e | 32 GB HBM por chip | 1,6 × 10^12 bytes/s por chip | 9,20 × 10^14 FLOP/s BF16; 1,84 × 10^15 FLOP/s INT8 | Es la fila con mayor rendimiento BF16 e INT8 por chip entre esas TPU [ |
| NVIDIA H100 SXM | 80 GB HBM3 | 3,35 TB/s | 67 TFLOPS FP32; 989 TFLOPS TF32 Tensor Core; 1.979 TFLOPS BF16/FP16 Tensor Core; 3.958 TFLOPS FP8 Tensor Core; 3.958 TOPS INT8 Tensor Core | Ofrece una cobertura de precisión más amplia, alto ancho de banda de memoria y un perfil de acelerador más general [ |
Google Cloud también documenta máquinas A3 con 1, 2, 4 u 8 GPU H100 conectadas y 80 GB de HBM3 por GPU [1]. Además, el material de AI Hypercomputer de Google Cloud presenta las TPU y las VM A3 con GPU H100 como parte de una misma cartera de infraestructura para IA [
18]. En la práctica, por tanto, la decisión no siempre es TPU en Google Cloud frente a GPU en otro proveedor.
Cuándo tiene más sentido una Google TPU
Una TPU es candidata fuerte cuando su especialización juega a favor, no en contra. Ponla arriba en la lista si:
- el trabajo es entrenamiento o inferencia de aprendizaje profundo dominado por grandes operaciones tensoriales [
2];
- el modelo tiene formas, lotes y patrones de particionado relativamente estables y ajustables para TPU;
- el equipo acepta prácticas de escalado específicas de TPU; la guía de JAX trata tamaño de pod, tamaño de host, capacidad HBM, ancho de banda y rendimiento BF16/INT8 como dimensiones centrales de planificación [
11];
- Google Cloud ya es el entorno previsto de despliegue;
- el objetivo de negocio es medir coste-rendimiento en un conjunto acotado de modelos, no maximizar la portabilidad a cualquier carga.
Las TPU pueden ser muy atractivas cuando el trabajo mantiene los chips ocupados y evita reescrituras costosas. Pero eso es un resultado de la carga concreta, no una ley universal. Google ha publicado material sobre rendimiento por dólar de GPU y TPU en inferencia de IA, lo que refuerza que la economía de servir modelos depende del modelo y de la configuración, no de un ranking único de aceleradores [16].
Cuándo tiene más sentido una NVIDIA H100
La NVIDIA H100 suele ser mejor punto de partida cuando la flexibilidad vale más que la especialización. Es especialmente atractiva si:
- necesitas modos de mayor precisión, como FP64 o FP32, además de modos Tensor Core de menor precisión; la tabla pública de H100 SXM incluye FP64, FP32, TF32, BF16, FP16, FP8 e INT8 [
10];
- tu base de código ya depende de kernels, bibliotecas u operaciones pensadas para GPU;
- el mismo parque de hardware debe atender varios tipos de cargas, no una sola familia estrecha de modelos;
- quieres usar configuraciones H100 en Google Cloud; las máquinas A3 están documentadas con 1, 2, 4 u 8 GPU H100 conectadas [
1];
- el riesgo de migración pesa más que una posible ganancia teórica de eficiencia por chip.
El argumento más sólido a favor de H100 no es que una GPU gane a una TPU en todos los benchmarks. Es que la GPU ofrece más margen cuando cambian los requisitos.
Coste: no compares solo el precio por hora
Comparar precios por hora es tentador, pero puede llevar a conclusiones frágiles. Una comparación de un tercero situaba Google Cloud TPU v5e en torno a 1,20 dólares por chip-hora y un ejemplo de Azure ND H100 v5 en torno a 12,84 dólares por hora para una GPU H100 de 80 GB [4]. Como es una comparación no oficial y entre nubes distintas, conviene leerla como orientación, no como prueba universal de que una TPU siempre será más barata.
La comparación de costes útil mira el sistema completo:
- Rendimiento útil: pasos de entrenamiento por segundo, muestras por segundo, tokens por segundo o latencia al tamaño de lote objetivo.
- Modo de precisión: FP8, BF16, FP16, TF32, FP32, FP64 e INT8 no son cifras intercambiables [
10][
11].
- Capacidad y ancho de banda de memoria: modelos grandes, contextos largos y tamaño de lote pueden desplazar el cuello de botella desde el cómputo pico hacia la memoria [
10][
11].
- Comportamiento al escalar: la topología de pod de TPU y la configuración de VM con H100 afectan al diseño de entrenamiento distribuido e inferencia [
1][
11].
- Utilización: un acelerador ocioso es caro aunque su precio por hora parezca atractivo.
- Coste de ingeniería: portar código, ajustar compiladores, depurar, monitorizar y cambiar despliegues puede borrar el ahorro de chip-hora.
La métrica práctica es el coste por salida útil: por paso de entrenamiento, por modelo convergido, por token de inferencia o por objetivo de latencia.
Matriz de decisión
| Prioridad | Mejor punto de partida | Por qué |
|---|---|---|
| Aprendizaje profundo compatible con TPU en Google Cloud | Google TPU | La documentación pública de TPU enfatiza escala de pod, HBM, ancho de banda y rendimiento BF16/INT8 para planificar el escalado de modelos [ |
| Soporte amplio de precisión numérica | NVIDIA H100 | H100 SXM lista FP64, FP32, TF32 Tensor Core, BF16/FP16 Tensor Core, FP8 Tensor Core e INT8 Tensor Core [ |
| Despliegue existente en Google Cloud con opcionalidad | Probar ambas | Google Cloud documenta máquinas A3 con H100 y también presenta TPU y VM A3 con H100 dentro de su cartera de infraestructura de IA [ |
| Menor coste de inferencia | Probar ambas | Google ha publicado análisis de rendimiento por dólar para inferencia de IA, mientras que los ejemplos de precio por chip-hora de terceros son orientativos y entre nubes distintas [ |
| Producción ya centrada en GPU | NVIDIA H100 | Evitar riesgo de migración puede importar más que una ganancia teórica de eficiencia del acelerador. |
Conclusión
Piensa en la TPU como el acelerador de IA más especializado y en la H100 como una plataforma de aceleración más flexible. Si tu modelo es amigable con TPU, está muy centrado en aprendizaje profundo y ya va hacia Google Cloud, una TPU puede ser la mejor apuesta de coste-rendimiento. Si necesitas modos numéricos amplios, cargas mixtas, continuidad operativa con GPU o menos riesgo de migración, la NVIDIA H100 suele ser el punto de partida más seguro [10][
11].
La respuesta final fiable solo llega con un benchmark específico de tu carga: rendimiento, memoria, utilización, coste total y esfuerzo de ingeniería sobre el modelo exacto que quieres entrenar o servir.




