這些合作的重要之處在於:Trainium 不再只用於 Amazon 內部,而是被前沿 AI 實驗室與大型企業平台採用。
但幾個結構性因素正在推動企業尋找替代方案。
1. GPU 供應緊張
訓練大型 AI 模型需要數萬甚至數十萬個加速器。如果只依賴單一供應商,一旦需求暴增就容易出現瓶頸。
2. 計算成本壓力
AI 訓練已成為科技公司最大的開支之一。專門為 AI 工作負載設計的晶片,有機會降低整體成本。
3. 雲端平台垂直整合
AWS 等公司若自行設計晶片,可以同時控制硬件供應、數據中心架構與價格策略。
因此目前不少公司採取的其實不是「棄用 Nvidia」,而是 多架構算力策略:
不同工作負載使用不同晶片。
AWS 最新一代架構是 Trainium3,主要目標是提升大型 AI 模型訓練效率。
不過需要留意的是,目前跨不同工作負載的獨立 benchmark 仍然不多,而 Nvidia 在軟件工具和開發者生態方面仍然佔有明顯優勢。
現在 AI 晶片市場大致形成三種不同策略。
Nvidia:GPU 生態系統
Nvidia 仍是 AI 訓練的主流平台,其 CUDA 軟件生態成熟,廣泛被 AI 研究機構使用。
Google:TPU 自研晶片
Google 是最早自研 AI 加速器的大型公司之一,Tensor Processing Units(TPU)已在 Google Cloud 提供給客戶。
Amazon:雲端整合型架構
AWS 正建立完整硬件堆疊,包括:
Amazon 的策略並非單純比拼單顆晶片性能,而是把晶片、雲服務與長期基建合約綁在一起。
Amazon 的 Trainium 正逐步從「內部優化工具」變成一個 大型 AI 基建平台。
與 Anthropic、OpenAI 等 AI 實驗室的巨額合作,加上企業客戶的逐步採用,以及不斷改善的價格性能比,都令 Trainium 成為訓練大型 AI 模型的可行選擇。
短期內,Nvidia 仍然是 AI 硬件市場的主導者。但隨著 Amazon、Google 等雲端巨頭加速自研晶片,未來 AI 基建很可能不再由單一晶片平台主導,而是進入 多架構並存的時代。
Comments
0 comments