C語言作為編譯式低階語言,其本質與當前AI業界普遍依賴的Python生態系截然不同。無論是JAX、PyTorch還是TensorFlow,這些框架透過高層次的抽象化,大幅簡化了模型的開發流程,但同時也無可避免地引入了執行時期的效能損耗。SpaceX直接使用C語言,理論上能繞過這層抽象,獲得更精細的記憶體頻寬、運算排程及GPU之間通訊的控制權 。
這項計畫的布局不僅止於訓練。馬斯克已確認,後續會規劃一個同樣以C語言編寫的推論堆疊(inference stack),目標是在大規模的GB300 GPU上,進行高速的強化學習。他表示,這項技術不僅適用於SpaceX,也將用於其創辦的xAI與特斯拉(Tesla)的AI運算任務 。最直接的近期目標,則是為xAI的下一代對話機器人模型Grok提供訓練動力
。
馬斯克提出的說法很直接:這套客製化C語言堆疊,在同等硬體上進行大規模訓練時,速度將比JAX快「超過十倍」 。若此言屬實,這將是AI訓練效率的一次歷史性飛躍。通常要達到10倍的提升,需要來自硬體、演算法或兩者兼具的根本性架構突破,鮮少能僅憑軟體優化達成。
以JAX為例,即便經過良好優化,其擴展效率也常呈現次線性成長。根據一份2026年1月的實用指南,以JAX在Nvidia Blackwell GPU上訓練一個Transformer模型時,從1顆GPU擴展到16顆,吞吐量僅提升了4.08倍,這與單顆GPU效能提升10倍的說法相去甚遠 。若真的能在22萬顆GPU的規模下實現10倍於JAX的速度,將徹底重塑尖端AI訓練的經濟學。
有幾個理由值得我們對此保持審慎態度:
此舉讓SpaceX躋身於少數但日益增長的組織之列,這些組織願意完全繞過主流的機器學習框架。多數AI實驗室接受JAX或PyTorch所帶來的生產力折衷,因為它們能快速實驗,且擁有龐大的生態系,這些優點通常超越了對硬體極致效率的追求。
SpaceX的賭注顯然是:在極大規模下,這些利弊會開始翻轉。也就是說,在一個由22萬顆GPU構成的叢集上,從頭建構一個C語言專屬技術堆疊的開發成本,會被後續節省下來的龐大訓練成本所抵銷。
這個賭注是否划算,完全取決於那「10倍速」的說法能否在嚴格的檢視下被重現。在SpaceX或xAI公布其方法論、工作負載細節,並提供可被驗證的比較結果之前,這項宣稱仍只是一個非凡的工程野心,而非既定的事實。
Comments
0 comments