| США / Google |
| собственная архитектура TPU |
| 918 TFLOPS bf16 |
| 32 ГБ HBM |
| ~1.6 ТБ/с |
| не указано |
| Один TensorCore с двумя блоками матричного умножения; рассчитан на масштабирование в TPU‑подах до 256 чипов. |
| Huawei Ascend 910 (ориг.) | Китай / Huawei | Da Vinci, ~7 нм | ~256 TFLOPS FP16 | HBM | ~1.2 ТБ/с | ~350 Вт | Представлен в 2019 году как флагманский AI‑ускоритель Huawei. |
| Biren BR100 | Китай / Biren | двухкристальный GPU, TSMC 7 нм CoWoS | 256 TFLOPS FP32 / ~2048 TOPS INT8 | 64 ГБ HBM2E | до ~2.3 ТБ/с | ~550 Вт | Чиплетная архитектура с ~77 млрд транзисторов для дата‑центров ИИ. |
| Biren BR104 | Китай / Biren | одночиповый GPU | ~128 TFLOPS FP32 | 32 ГБ HBM2E | ~819 ГБ/с | ~300 Вт | Упрощённая версия для ускорительных PCIe‑карт. |
По опубликованным характеристикам американские ускорители сегодня демонстрируют более высокую пиковую вычислительную мощность для обучения моделей.
Например, AMD MI325X достигает примерно 1.3 PFLOPS FP16, а Google TPU v6e обеспечивает 918 TFLOPS bf16 на один чип.
Китайские разработки постепенно сокращают разрыв. Так, Huawei Ascend 910C использует двухчиплетную конструкцию на базе предыдущих кристаллов Ascend и может достигать около 800 TFLOPS FP16.
Другой пример — Biren BR100, один из наиболее амбициозных китайских GPU‑ускорителей. Он предлагает до 256 TFLOPS FP32 и примерно 2048 TOPS INT8 благодаря многокристальной архитектуре.
Чип Cambricon MLU370‑X8 ориентирован на задачи обучения и инференса и обеспечивает 96 TFLOPS FP16 и 256 TOPS INT8.
Для современных моделей ИИ память часто становится главным ограничением. Большие модели требуют не только вычислительной мощности, но и огромной пропускной способности для перемещения тензоров.
Чем выше пропускная способность памяти, тем быстрее ускоритель может выполнять матричные операции — ключевые для обучения нейросетей.
Практически ни одна крупная модель ИИ не обучается на одном чипе. В современных дата‑центрах сотни или тысячи ускорителей объединяются в распределённые кластеры.
В результате архитектура кластера сегодня становится не менее важной, чем характеристики одного чипа.
Технологический процесс напрямую влияет на производительность и энергоэффективность.
Многие китайские AI‑чипы всё ещё зависят от международных производственных технологий. Например, Biren BR100 изготавливался по 7‑нм процессу TSMC с использованием продвинутой упаковки CoWoS.
Новые ускорители Huawei комбинируют дизайн собственного производства с 7‑нм‑классом фабрик SMIC и компонентами, произведёнными до введения экспортных ограничений США.
Американские компании, в свою очередь, опираются на более развитую глобальную цепочку поставок и доступ к передовым производственным технологиям.
В индустрии ИИ аппаратное обеспечение — только часть картины. Не менее важны инструменты для разработчиков.
Наличие инструментов, библиотек и облачных сервисов часто определяет, какое оборудование будет использоваться в реальных проектах.
Из текущего поколения AI‑ускорителей можно сделать несколько выводов:
Иными словами, гонка AI‑чипов — это не только соревнование TFLOPS и транзисторов. Это борьба между целыми технологическими экосистемами: производством полупроводников, программными платформами и способностью масштабировать тысячи ускорителей в инфраструктуру для обучения всё более крупных моделей искусственного интеллекта.
Comments
0 comments