Этот подход отражает более широкий тренд: крупнейшие облачные компании всё чаще проектируют собственные ASIC‑чипы для ИИ, чтобы снизить зависимость от сторонних поставщиков оборудования.
Главный индикатор успеха Trainium — масштаб долгосрочных соглашений с клиентами.
AWS уже объявила о многолетних контрактах на вычислительные мощности, привязанных к инфраструктуре Trainium, с ведущими компаниями индустрии ИИ.
Некоторые примеры:
Эти сделки важны, потому что демонстрируют интерес не только внутри Amazon, но и со стороны ведущих лабораторий ИИ и крупных технологических платформ.
Несмотря на рост конкуренции, Nvidia остаётся доминирующим игроком на рынке ИИ‑чипов для дата‑центров — около 81% рынка.
Однако несколько факторов заставляют компании искать альтернативы.
Ограничения поставок
Обучение современных моделей требует огромных кластеров ускорителей. Зависимость от одного производителя может стать узким местом при резком росте спроса.
Стоимость вычислений
Обучение крупных моделей стоит десятки или сотни миллионов долларов. Чипы, оптимизированные под конкретные задачи, потенциально позволяют снизить эти расходы.
Вертикальная интеграция облаков
Разрабатывая собственные процессоры, компании вроде Amazon получают контроль над ценами, поставками и архитектурой своих дата‑центров.
Важно: большинство компаний не отказываются от Nvidia полностью. Вместо этого они используют гибридную стратегию — сочетая GPU Nvidia с собственными ускорителями вроде Trainium или Google TPU.
Последнее поколение архитектуры — Trainium3 — должно значительно повысить производительность инфраструктуры AWS для обучения крупных моделей.
Согласно данным AWS и материалам запуска, системы на Trainium3 предлагают следующие улучшения по сравнению с Trainium2:
AWS также сообщает, что некоторые клиенты смогли снизить стоимость обучения и инференса до 50%, хотя результаты сильно зависят от архитектуры модели и уровня оптимизации программного обеспечения.
Ранее компания утверждала, что Trainium2 обеспечивает примерно на 30% лучшее соотношение цена‑производительность, чем сопоставимые GPU, а Trainium3 улучшает этот показатель ещё на 30–40%.
При этом независимых бенчмарков пока немного, а экосистема разработчиков и инструменты Nvidia (например CUDA) по‑прежнему остаются одним из её ключевых преимуществ.
Сегодня рынок ускорителей ИИ всё чаще формируется вокруг трёх разных стратегий.
Nvidia
Лидер отрасли с мощными GPU и зрелой программной экосистемой, которая остаётся стандартом для обучения крупных моделей.
Google
Один из пионеров специализированных чипов ИИ — TPU (Tensor Processing Unit) — активно используемых внутри компании и предлагаемых клиентам Google Cloud.
Amazon
AWS строит вертикально интегрированный стек инфраструктуры: процессоры Graviton, ускорители Trainium и собственные сетевые технологии, объединённые в облачной платформе.
Стратегия Amazon делает ставку не столько на абсолютную производительность отдельного чипа, сколько на интеграцию железа, облачных сервисов и долгосрочных инфраструктурных контрактов.
Trainium быстро превращается из внутреннего проекта AWS в крупную инфраструктурную платформу для искусственного интеллекта. Контракты с компаниями вроде Anthropic, OpenAI и Uber, более чем $225 млрд долгосрочных обязательств и улучшения в новых поколениях чипов показывают, что интерес рынка растёт.
Тем не менее Nvidia остаётся доминирующим игроком благодаря мощным GPU и зрелой экосистеме разработки. Вероятнее всего, будущее инфраструктуры ИИ будет строиться не вокруг одного поставщика, а вокруг нескольких архитектур и поставщиков вычислений, где GPU и специализированные чипы будут сосуществовать.
Comments
0 comments