Сравнение ИИ-железа часто сводят к вопросу: что быстрее — TPU или GPU? На практике это слишком грубая постановка. Tensor Processing Unit от Google — специализированный ускоритель для тензорных вычислений в системах машинного обучения, а NVIDIA H100 SXM — дата-центровый GPU с широкой таблицей режимов: FP64, FP32, TF32 Tensor Core, BF16/FP16, FP8 и INT8 [2][
10].
Поэтому правильный вопрос звучит иначе: какая платформа лучше подходит именно вашей модели, стеку разработки, требованиям к памяти, точности, масштабированию и развертыванию. Ниже сравнение привязано к конкретным ориентирам: NVIDIA H100 SXM и VM-семейству Google Cloud A3 с H100 — со стороны GPU, а также TPU v5e, v5p и v6e — со стороны TPU [1][
10][
11].
Короткий вывод
- Выбирайте Google TPU, если задача почти полностью относится к deep learning, модель хорошо ложится на TPU-исполнение, а команда готова работать с TPU-ориентированным масштабированием. В документации JAX по масштабированию указаны топологии TPU-подов, объем HBM на чип, пропускная способность и показатели BF16/INT8 для TPU v5e, v5p и v6e [
11].
- Выбирайте NVIDIA H100 GPU, если важны более широкий набор числовых форматов, смешанные нагрузки или меньший риск миграции из уже существующего GPU-first стека. В публичной спецификации NVIDIA H100 SXM перечислены режимы FP64, FP32, TF32 Tensor Core, BF16/FP16 Tensor Core, FP8 Tensor Core и INT8 Tensor Core, а также 80 ГБ HBM3 и пропускная способность памяти 3,35 ТБ/с [
10].
- Бенчмарк обязателен, если главный критерий — стоимость. Пиковые характеристики, цена чип-часа и заявления поставщиков не заменяют измерения цены одного полезного шага обучения или одного inference-токена на вашей модели.
Архитектура: специализация против универсальности
TPU — это специализированные ASIC-ускорители для тензорной обработки в ML-системах [2]. Именно специализация делает их привлекательными для крупных и регулярных тензорных нагрузок: если путь через компилятор, формы тензоров, batching и sharding хорошо подходят TPU, больше вычислительных блоков работает полезно, а не простаивает.
H100 устроен иначе. Это GPU, сильно оптимизированный под ИИ через Tensor Cores, но его публичная таблица характеристик также включает обычные FP64 и FP32, плюс несколько низкоточных Tensor Core режимов [10]. Такая широта важна, когда один пул ускорителей должен обслуживать не одну узкую модель, а эксперименты, обучение, инференс и задачи с разными требованиями к точности.
Спецификации помогают, но не отвечают за вас
Сырые цифры показывают контуры выбора, но это не готовый benchmark. Таблицы TPU и GPU часто используют разные форматы точности, разные системные допущения и разные сценарии масштабирования.
| Ускоритель | Память по публичным данным | Пропускная способность памяти | Вычислительные показатели | Как это читать |
|---|---|---|---|---|
| TPU v5e | 16 ГБ HBM на чип | 8,1×10^11 байт/с на чип | 1,97×10^14 BF16 FLOP/s на чип; 3,94×10^14 INT8 FLOP/s на чип | В таблице JAX это TPU-вариант с меньшим HBM на чип, чем у v5p и v6e; особенно внимательно проверяйте, помещается ли модель в память [ |
| TPU v5p | 96 ГБ HBM на чип | 2,8×10^12 байт/с на чип | 4,59×10^14 BF16 FLOP/s на чип; 9,18×10^14 INT8 FLOP/s на чип | Среди v5e, v5p и v6e это строка с самым большим HBM на чип в таблице JAX [ |
| TPU v6e | 32 ГБ HBM на чип | 1,6×10^12 байт/с на чип | 9,20×10^14 BF16 FLOP/s на чип; 1,84×10^15 INT8 FLOP/s на чип | Среди этих TPU-строк здесь указана самая высокая производительность на чип в BF16 и INT8 [ |
| NVIDIA H100 SXM | 80 ГБ HBM3 | 3,35 ТБ/с | 67 TFLOPS FP32; 989 TFLOPS TF32 Tensor Core; 1 979 TFLOPS BF16/FP16 Tensor Core; 3 958 TFLOPS FP8 Tensor Core; 3 958 TOPS INT8 Tensor Core | Более широкий набор режимов точности, высокая пропускная способность памяти и более универсальный профиль ускорителя [ |
Google Cloud также описывает A3-машины с H100: варианты с 1, 2, 4 или 8 подключенными GPU H100 и 80 ГБ HBM3 на каждый GPU [1]. В материалах Google Cloud AI Hypercomputer TPU и A3 VM с NVIDIA H100 рассматриваются как части одного портфеля ИИ-инфраструктуры [
18]. Поэтому на практике выбор не всегда выглядит как TPU в Google Cloud против GPU где-то еще.
Когда Google TPU выглядит сильнее
TPU стоит поставить в верхнюю часть списка, если специализация помогает, а не мешает. Это особенно актуально, когда:
- задача — обучение или инференс deep learning модели, где основную работу делают крупные тензорные операции [
2];
- формы тензоров, batch size и схема sharding достаточно стабильны и могут быть настроены под хорошую загрузку TPU;
- команда готова учитывать TPU-ориентированные параметры масштабирования: документация JAX рассматривает размер пода, размер хоста, HBM, bandwidth и BF16/INT8 throughput как ключевые параметры планирования [
11];
- Google Cloud уже выбран как среда развертывания;
- бизнес-цель — добиться лучшей измеренной цены-производительности на ограниченном наборе моделей, а не обеспечить максимальную переносимость под любые нагрузки.
TPU может быть очень выгодным, когда модель действительно держит чипы занятыми и не требует дорогой переработки кода. Но это свойство конкретной нагрузки, а не универсальное правило. Google публиковала материалы о performance-per-dollar для GPU и TPU в AI inference, что дополнительно показывает: экономика инференса зависит от модели и конфигурации, а не от единого рейтинга ускорителей на все случаи [16].
Когда NVIDIA H100 — более безопасный выбор
NVIDIA H100 обычно сильнее там, где гибкость важнее специализации. Такой выбор особенно разумен, если:
- нужны не только низкоточные режимы, но и FP64 или FP32: в публичной таблице H100 SXM есть FP64, FP32, TF32 Tensor Core, BF16/FP16 Tensor Core, FP8 Tensor Core и INT8 Tensor Core [
10];
- кодовая база уже зависит от GPU-ориентированных kernels, библиотек и операционного tooling;
- один и тот же парк ускорителей должен обслуживать разные типы задач, а не одну узкую линейку моделей;
- нужны H100 VM-формы в Google Cloud: A3 machine types документированы с 1, 2, 4 или 8 подключенными H100 GPU [
1];
- риск миграции важнее потенциального выигрыша в эффективности отдельного чипа.
Главный аргумент в пользу H100 не в том, что один GPU всегда быстрее одного TPU-чипа во всех тестах. Сильная сторона H100 — более универсальная платформа, когда требования меняются.
Стоимость: не сравнивайте только цену чип-часа
Цены удобно сравнивать в одну строку, но такой подход легко вводит в заблуждение. Один сторонний обзор приводил Google Cloud TPU v5e примерно за 1,20 доллара за чип-час и пример Azure ND H100 v5 примерно за 12,84 доллара за час 80-гигабайтного H100 GPU [4]. Но это кросс-облачное и неофициальное сравнение, поэтому его лучше воспринимать как ориентир, а не как доказательство, что TPU всегда дешевле.
Более честный расчет должен учитывать всю систему:
- Полезную пропускную способность: шаги обучения в секунду, samples/s, tokens/s или задержку при целевом batch size.
- Режим точности: FP8, BF16, FP16, TF32, FP32, FP64 и INT8 нельзя считать взаимозаменяемыми [
10][
11].
- Память и bandwidth: большие модели, длинный контекст и batch size могут сделать узким местом не пиковые FLOPS, а память [
10][
11].
- Поведение при масштабировании: топология TPU-пода и конфигурация H100 VM влияют на дизайн распределенного обучения и serving [
1][
11].
- Утилизацию: простаивающий ускоритель дорог, даже если час его работы выглядит дешевым.
- Инженерную цену: портирование, работа с компилятором, отладка, мониторинг и изменения deployment-процесса могут съесть экономию на чип-часах.
Практичная метрика — стоимость полезного результата: одного шага обучения, доведенной до сходимости модели, inference-токена или достижения нужной задержки.
Матрица выбора
| Приоритет | Лучший вариант по умолчанию | Почему |
|---|---|---|
| TPU-friendly deep learning в Google Cloud | Google TPU | Публичные TPU-документы делают акцент на pod scale, HBM, bandwidth и BF16/INT8 throughput как параметрах масштабирования модели [ |
| Широкая поддержка точности | NVIDIA H100 GPU | H100 SXM включает FP64, FP32, TF32 Tensor Core, BF16/FP16 Tensor Core, FP8 Tensor Core и INT8 Tensor Core [ |
| Уже есть Google Cloud, но нужен выбор | Бенчмарк обоих вариантов | Google Cloud документирует A3-машины с H100 и одновременно включает TPU и H100 A3 VM в портфель ИИ-инфраструктуры [ |
| Минимальная стоимость инференса | Бенчмарк обоих вариантов | Google публиковала анализ performance-per-dollar для AI inference, а сторонние цены чип-часа остаются ориентировочными и кросс-облачными [ |
| Production-стек уже построен вокруг GPU | NVIDIA H100 GPU | Снижение миграционного риска может быть важнее теоретического выигрыша в эффективности ускорителя. |
Итог
Думайте о TPU как о более специализированном ИИ-ускорителе, а о H100 — как о более гибкой accelerator-платформе. Если модель хорошо подходит TPU, нагрузка почти полностью deep learning, а развертывание уже идет в Google Cloud, TPU может оказаться лучшей ставкой по цене-производительности. Если нужны разные числовые режимы, смешанные workloads, непрерывность GPU-ориентированной эксплуатации или меньший риск миграции, NVIDIA H100 чаще будет безопасным выбором [10][
11].
Но финальный ответ дает не таблица FLOPS. Его дает ваш benchmark: throughput, поведение памяти, утилизация, полная стоимость и инженерные усилия на той модели, которую вы реально собираетесь обучать или обслуживать.




