| Google TPU v6e (Trillium) |
| USA / Google |
| Custom TPU‑Architektur |
| 918 TFLOPS bf16 pro Chip |
| 32 GB HBM |
| ~1,6 TB/s |
| nicht angegeben |
| Skalierung auf TPU‑Pods mit bis zu 256 Chips. |
| Huawei Ascend 910 (2019) | China / Huawei | Da‑Vinci‑Architektur, ~7 nm | ~256 TFLOPS FP16 | HBM | ~1,2 TB/s | ~350 W | Früher Flaggschiff‑Beschleuniger von Huawei. |
| Huawei Ascend 910C | China / Huawei | Chiplet‑Design (Dual‑Die), ~7‑nm‑Klasse | ~800 TFLOPS FP16 (Schätzung) | ~96–128 GB HBM | ~3,2 TB/s | ~310 W | Konkurrenz zu Nvidia‑A100/H100‑Klasse. |
| Biren BR100 | China / Biren | Dual‑Die GPU, TSMC 7 nm CoWoS | 256 TFLOPS FP32 / ~2.048 TOPS INT8 | 64 GB HBM2E | bis ~2,3 TB/s | ~550 W | Chiplet‑GPU mit etwa 77 Mrd. Transistoren. |
| Biren BR104 | China / Biren | Single‑Die GPU | ~128 TFLOPS FP32 | 32 GB HBM2E | ~819 GB/s | ~300 W | PCIe‑Beschleuniger für Rechenzentren. |
| Cambricon MLU370‑X8 | China / Cambricon | MLUarch03, 7 nm | 24 TFLOPS FP32 / 96 TFLOPS FP16 / 256 TOPS INT8 | 48 GB LPDDR5 | ~614 GB/s | ~250 W | Multi‑Card‑Cluster über MLU‑Link. |
Bei der dokumentierten Spitzenleistung liegen US‑Beschleuniger derzeit häufig vorn. AMDs Instinct MI325X erreicht etwa 1,3 PFLOPS FP16, während Googles TPU v6e 918 TFLOPS bf16 pro Chip liefert.
Chinesische Chips versuchen diese Lücke zu verkleinern. Der Huawei Ascend 910C erreicht laut Schätzungen etwa 800 TFLOPS FP16, indem zwei Chiplets kombiniert werden, die auf früheren Ascend‑Designs basieren.
Auch Birens BR100 ist ein Versuch, im High‑End‑Segment mitzuhalten. Der Beschleuniger erreicht 256 TFLOPS FP32 und bis zu 2.048 TOPS INT8 in einem Multi‑Die‑Design.
Der Cambricon MLU370‑X8 richtet sich stärker an Inferenz‑ und Trainings‑Workloads in Rechenzentren und liefert 96 TFLOPS FP16 sowie 256 TOPS INT8.
Für moderne KI‑Modelle ist Speicherbandbreite oft ebenso wichtig wie Rechenleistung, da enorme Tensor‑Datenmengen zwischen Speicher und Recheneinheiten bewegt werden müssen.
Je höher die Bandbreite, desto schneller können große Matrix‑Operationen und Modellgewichte verarbeitet werden.
Große KI‑Modelle werden selten auf einem einzelnen Chip trainiert. Stattdessen verbinden Rechenzentren hunderte oder tausende Beschleuniger zu Clustern.
Damit wird die Architektur des gesamten Systems – nicht nur des einzelnen Chips – entscheidend für die Gesamtleistung.
Ein zentraler Faktor ist die Halbleiterfertigung. Fortschrittliche Fertigungsprozesse ermöglichen höhere Effizienz und Transistordichte.
Einige chinesische Chips sind noch teilweise von internationalen Produktionsketten abhängig. So wurde Birens BR100 beispielsweise mit TSMCs 7‑nm‑Prozess und CoWoS‑Packaging gefertigt.
Huawei kombiniert bei neueren Ascend‑Varianten eigene Designs mit 7‑nm‑Prozessen von SMIC sowie teilweise früher produzierten Wafern aus internationalen Lieferketten.
US‑Unternehmen greifen dagegen häufig auf hochentwickelte Foundry‑Technologien und etablierte globale Lieferketten zurück.
Hardware allein entscheidet nicht über den Erfolg eines KI‑Beschleunigers. Mindestens genauso wichtig sind Entwickler‑Tools, Frameworks und Cloud‑Integration.
Für Unternehmen und Forschungseinrichtungen ist die Software‑Unterstützung oft ausschlaggebend bei der Wahl der Hardware.
Mehrere Trends lassen sich erkennen:
Der KI‑Chip‑Wettlauf ist daher mehr als ein Vergleich einzelner Prozessoren. Er umfasst ganze Ökosysteme: Halbleiterfertigung, Software‑Stacks, Rechenzentren und die Infrastruktur, die zukünftige KI‑Modelle antreiben wird.
Comments
0 comments