系統究竟係乜東東?
綜合2026年5月28日多份報導,SpaceX呢套AI訓練架構主要由C語言編寫,實務上亦夾雜少量C++代碼 。佢嘅設計核心係要精準對應嗰22萬張Nvidia GB300 GPU嘅硬件佈局。Nvidia GB300係嗰代Blackwell Ultra架構嘅旗艦級數據中心GPU,專為超大規模AI工廠而設
。
用C語言直接操控硬件,同而家AI業界高度依賴Python生態嘅做法有好大分別。JAX、PyTorch、TensorFlow呢啲框架,提供咗好多高階抽象層,令開發者可以好方便咁砌模型,但代價係會產生運行時開銷(runtime overhead),做唔到最極致嘅硬件利用率。SpaceX直接用C語言寫訓練堆疊,理論上可以踢走晒呢啲開銷,精細咁控制記憶體頻寬、運算排程同埋跨GPU之間嘅通訊,從而擠出最後一滴效能 。
佢哋嘅發展路線圖仲有後續計劃。馬斯克已經確認,下一步會開發一個同樣用C語言寫嘅推論架構(inference stack),目標係喺大規模嘅GB300 GPU區塊上,做到高速嘅強化學習(reinforcement learning)。呢項技術將來唔止會用喺SpaceX自己嘅項目,仲會應用到xAI同Tesla嘅AI工作流程 。短期最實際嘅目標,係用呢套系統嚟訓練xAI旗下下一代嘅Grok模型
。
十倍速有幾誇張?
要理解呢個宣稱有幾震撼,首先要知十倍提速喺呢個規模之下係咩概念。一般嚟講,透過純軟件優化要做到10倍效能提升係極之罕見,通常需要硬件架構革新或者演算法嘅根本性突破先做到。
打個比喻,Lambda Labs喺2026年1月發布過一份實務指南,示範點樣喺Nvidia Blackwell GPU上用JAX框架擴展訓練一個Transformer模型。結果顯示,由1張GPU擴展到16張GPU,吞吐量提升咗大約4.08倍——呢個係靠增加硬件規模得嚟嘅成果 。
但馬斯克宣稱嘅,係喺同等硬件規格之下,單靠自家軟件架構就可以跑出十倍速度。如果屬實,佢足以改寫前沿AI模型訓練嘅經濟效益,可能為SpaceX同xAI慳返以億計嘅訓練成本。
點解個宣稱仲未證實?
有幾個理由,令到我哋應該審慎看待呢個十倍速宣稱:
大局觀:SpaceX嘅豪賭
今次呢個舉動,將SpaceX擺咗喺一個好細但係好進取嘅組織名單入面。業界絕大部分AI實驗室,都寧願接受JAX或者PyTorch喺生產力上嘅好處——因為快速實驗同埋龐大生態系統嘅價值,通常遠高過純硬件效率嘅追求。
但SpaceX似乎喺度賭:當規模大到去22萬張GPU級別嗰陣,呢個取捨會逆轉。用C語言由頭砌過曬成個訓練架構嘅開發成本,可以透過慳返天價嘅訓練費用同時間嚟抵銷有餘。
呢場賭局嘅結果,完全取決於「十倍速」呢個宣稱能否通過嚴格審視。喺SpaceX或者xAI公布詳細方法論、工作負載細節同可重複驗證嘅對比數據之前,呢個十倍速故事,暫時只能夠當係一個極具野心嘅工程學宣稱,而唔係一個已確立嘅事實。
(編按:本文綜合截至2026年5月底嘅多份公開報導同技術文件)
Comments
0 comments