特斯拉CEO埃隆・马斯克 (Elon Musk) 在参观了最近建成的布超得克萨斯州超级计算集群后,在社交媒体上公布了超算集群的算集名称:Cortex,并指出他刚刚完成了新设施的硬元化演练。 本文引用地址: Cortex拥有约十万颗英伟达H100和H200芯片,成多专门用于训练特斯拉的布超自动驾驶系统FSD和Optimus机器人。值得注意的算集交头接耳是,虽然马斯克提到的硬元化是英伟达的产品,但Cortex庞大算力的成多硬件组成,可能是布超多元的,马斯克此前就曾透露超算集群的算集目标是 —— 一半算力由英伟达和其他厂家组成,比如AMD,硬元化另一半则来自特斯拉自研的成多超算中心Dojo。 特斯拉今年在英伟达芯片上的布超支出可能达到30亿至40亿美元,占公司总人工智能相关支出100亿美元的算集近一半,剩余的硬元化走为上策资金将用于内部研发的AI推理计算机、车辆传感器和Dojo超级计算机。 内部自研,外购囤卡,庞大的算力支撑了FSD的迭代升级,也带来了新的问题:冷却和能耗。网络曝光的工厂信息显示,超算设施内外配置了多重散热冷却措施,尽善尽美包括外部的巨大风扇,以及四个超大水箱和巨大的地下水管。 马斯克此前还详细介绍了Cortex超级计算集群的巨大冷却需求,并解释说该集群今年将需要约130MW的电力,未来18个月内更是有望突破500兆瓦,这也难怪马斯克会担忧“未来2年内缺电”。 但相比之下,蹦蹦跳跳目前国内智驾玩家还不到担忧电力的时候。或者说,算力差距才是当前焦虑的主要来源。2024年,智能驾驶领域开始了一场算力战争,特斯拉、小鹏、似水流年理想、蔚来等头部玩家纷纷展示自己的算力规模,而且国内智能驾驶玩家面临着算力获取的挑战,尤其是在高端显卡的获取上。 行业普遍认为,影响自动驾驶能力的三要素是:算力、数据和算法。朔风凛冽算法架构上,玩家们都转向了端到端,具体组成和细节各有千秋;数据目前主要取决于车辆的保有量,算法迭代升级,则逃不开算力依赖,但对国内玩家来说,高端算力的井井有条获取并不容易。 Cortex超算集群的算力规模和硬件组成更是显示了特斯拉在AI技术上的领先地位,这对国内智能驾驶玩家产生了巨大压力,也预示着智能驾驶领域竞争的激烈。但也有供应商认为,算力差距并不能决定一切,马斯克此前也表示虽然FSD的训练受到AI算力制约,但是铺张浪费需要干预的Corner Case场景数据,对迭代也很重要。