根据2026年5月28日发布的多个报道,SpaceX的这套训练系统已接近1.0版本。它几乎完全由C语言编写,仅在实际操作中使用了少量C++ 。其架构能精准映射到底层硬件布局,与22万颗GB300 GPU的逻辑结构严密吻合
。
马斯克将此设计哲学概括为“尽可能贴近硬件裸机”。为此,系统大量运用了“流水线并行”(Pipeline Parallelism)技术,这是一种能将一个巨大的计算任务拆分成多个连续阶段、并行执行的方法,旨在最大化地压榨GPU集群的每一分潜力 。
这一选择与当今AI行业的主流做法形成了鲜明对比。目前,谷歌的JAX、Meta的PyTorch等框架大多建立在Python语言之上。Python简单易懂,生态丰富,但其高度抽象的特性不可避免地带来了运行时的性能开销。用C语言则是直接与硬件对话,理论上能消除这种开销,在内存带宽、计算调度和多GPU通信上实现更精准的控制 。
SpaceX的规划不止于训练。马斯克已证实,一个同样用C语言编写的推理系统已在规划中,目标是利用大块的GB300 GPU进行高速的强化学习。他表示,这项技术不仅会用于SpaceX,还将应用于他旗下的其他公司,如xAI和特斯拉 。最直接的近期目标,则是用这套系统来训练xAI下一代的大语言模型——Grok
。
马斯克的“10倍”豪言,之所以引发关注也备受质疑,有以下几个层面的原因。
首先,这一说法缺乏实证。所有信息均源自马斯克的表态及其在社交媒体上的发言,并没有独立的性能数据、MLPerf(一个衡量AI系统性能的行业基准测试)分数或详细技术白皮书作为佐证 。在科学和工程领域,一项未经独立复现的声明,只能被视为一种雄心勃勃的工程目标。
其次,对比的对象和条件不明。性能提升10倍的对比基准是什么?是针对某个特定的、经过极致优化的运算,还是在一个完整的、多样化的训练任务上实现的?使用的模型架构、数据精度(如FP8、BF16等)是什么?这些关键细节均未披露 。
为了理解这个对比的难度,我们可以看一个实际案例:一份2026年1月发布的实践指南显示,在使用JAX框架在英伟达Blackwell GPU上训练一个Transformer模型时,将GPU数量从1颗扩展到16颗,吞吐量仅提升了4.08倍 。这还是在优化良好的情况下。在一个拥有22万颗GPU的庞然大物上实现10倍的每单位GPU效率提升,其技术难度可想而知。
最后,马斯克本人对技术项目的时间和性能预估有过多次过于乐观的历史。因此,业界对这类“遥遥领先”的说法自然会打上一个问号。
这一举动将SpaceX置于一个极小但正在壮大的组织行列中——它们甘愿彻底绕开标准的机器学习框架。
对于绝大多数AI实验室而言,接受JAX或PyTorch带来的少量性能折损是划算的,因为这意味着能极速进行实验、复用庞大的生态和社区资源。而SpaceX的算盘或许是这样打的:在22万颗GPU的极端规模之下,效率上的微小差异都会被天文数字般地放大,以至于从头构建一套定制系统的巨大开发成本,与之带来的训练成本节省相比,也变得微不足道。
这是一场豪赌。赌的是,在AI训练的“极限地带”,现有框架的通用性已成为瓶颈,而回归底层、追求完全掌控的“裸机”哲学,才是打开下一次飞跃的钥匙。
最终,这场赌局能否成功,完全取决于那个“10倍”的说法能否在公开、严格的检验下得到重现。在此之前,它仍是太空探索技术公司又一个雄心勃勃的工程技术野心,而非一个既定事实。
Comments
0 comments