| Google TPU v6e (Trillium) | EE. UU. / Google | Arquitectura TPU personalizada | 918 TFLOPs bf16 por chip | 32 GB HBM | ≈1,6 TB/s | no especificado | Diseñado para pods TPU de hasta 256 chips interconectados. |
| Huawei Ascend 910 | China / Huawei | Arquitectura Da Vinci, ~7 nm | ≈256 TFLOPS FP16 | Memoria HBM | ≈1,2 TB/s | ≈350 W | Lanzado en 2019 como acelerador insignia de Huawei. |
| Huawei Ascend 910C | China / Huawei | Diseño chiplet (dos dies 910B), ~7 nm | ≈800 TFLOPS FP16 (estimado) | hasta ≈96–128 GB HBM | ≈3,2 TB/s | ≈310 W | Orientado a competir con aceleradores tipo A100/H100. |
| Biren BR100 | China / Biren | GPU multi‑die, TSMC 7 nm CoWoS | 256 TFLOPS FP32 / ≈2.048 TOPS INT8 | 64 GB HBM2E | hasta ≈2,3 TB/s | ≈550 W | GPU de centro de datos con ~77 mil millones de transistores. |
| Biren BR104 | China / Biren | GPU monolítica | ≈128 TFLOPS FP32 | 32 GB HBM2E | ≈819 GB/s | ≈300 W | Variante más pequeña para tarjetas PCIe. |
| Cambricon MLU370‑X8 | China / Cambricon | Arquitectura MLUarch03, 7 nm | 24 TFLOPS FP32 / 96 TFLOPS FP16 / 256 TOPS INT8 | 48 GB LPDDR5 | ≈614 GB/s | ≈250 W | Soporte para clústeres multi‑tarjeta mediante MLU‑Link. |
Los aceleradores estadounidenses lideran actualmente en rendimiento bruto documentado para entrenamiento de IA a gran escala.
El AMD MI325X alcanza alrededor de 1,3 petaflops en FP16, mientras que el Google TPU v6e ofrece 918 teraflops en precisión bf16 por chip.
China intenta cerrar esa brecha con chips como el Huawei Ascend 910C, que se estima en unos 800 TFLOPS FP16 gracias a un diseño chiplet que combina dos procesadores derivados del Ascend 910B.
Por su parte, Biren BR100 representa otro intento de competir en la gama alta: ofrece 256 TFLOPS FP32 y cerca de 2.048 TOPS INT8 en un diseño de GPU multinúcleo destinado a centros de datos.
El Cambricon MLU370‑X8 se posiciona más en inferencia y entrenamiento moderado con 96 TFLOPS FP16 y 256 TOPS INT8.
Los modelos de IA modernos dependen fuertemente de la memoria disponible y de la velocidad con la que los datos pueden moverse entre memoria y unidades de cómputo.
Este ancho de banda elevado es clave para operaciones de matrices y entrenamiento de redes neuronales profundas, donde se transfieren grandes tensores continuamente.
Los modelos de IA modernos rara vez se entrenan en un solo chip. En cambio, cientos o miles de aceleradores se conectan en grandes clústeres.
En la práctica, la arquitectura del sistema y la red entre chips puede ser tan importante como el rendimiento individual del acelerador.
La tecnología de fabricación influye directamente en eficiencia energética y rendimiento.
Algunos chips chinos dependen de fundiciones externas. Por ejemplo, el Biren BR100 fue fabricado con el proceso de 7 nm de TSMC y empaquetado CoWoS avanzado.
Los chips Ascend más recientes de Huawei combinan diseños producidos en el proceso SMIC de clase 7 nm con obleas fabricadas antes de las restricciones de exportación de EE. UU.
En contraste, los chips diseñados en Estados Unidos suelen apoyarse en cadenas de suministro globales que incluyen las tecnologías de fabricación y empaquetado más avanzadas.
El éxito en IA no depende solo del hardware.
Herramientas para desarrolladores, bibliotecas optimizadas y servicios en la nube suelen determinar qué hardware termina adoptándose a gran escala.
De la generación actual de aceleradores de IA se desprenden varias tendencias claras:
En otras palabras, la carrera por los chips de IA no se decide únicamente por teraflops o transistores. También depende de ecosistemas de software, capacidades de fabricación y de quién pueda escalar miles de aceleradores en infraestructuras eficientes para entrenar la próxima generación de modelos de inteligencia artificial.
Comments
0 comments