注 1:封面图片来源[1]。
注 2:文章内容和其中图片出自此篇分析原文[2],以及译者的翻译、修改和注释。
注 3:文章内容来自于原文翻译,不代表译者的观点。
特斯拉励志成为世界领先的人工智能公司之一。到目前为止,他们并没有部署最先进的自动驾驶技术;这一荣誉属于 Alphabet 的 Waymo。此外,特斯拉在生成式人工智能领域(译者注:GPT)毫无存在感。尽管如此,由于数据收集的优越性、专用计算能力、创新文化和领先的人工智能研究人员,他们有可能在自动驾驶汽车和机器人领域取得领先地位。
目前,特斯拉的 AI 基础设施非常有限,只有约 4,000 块 V100 和约 16,000 块 A100(译者注:就在两天前2023/08/29,一台由 10,000 块最新 H100 构成的 AI 计算机在特斯拉上线)。与全球其他大型科技公司相比,这是一个非常小的数字,因为像微软和 Meta 这样的公司拥有超过 100,000 个 GPU,并且他们计划在短中期内将这些数字翻倍。造成特斯拉薄弱的 AI 基础设施的部分原因是由于他们内部 D1 训练芯片的多次延迟造成的。
然而,现在情况正在迅速改变。
特斯拉正计划在 1.5 年内将其 AI 容量大幅提升超过 10 倍。其中一部分是为了他们自身的能力,但也有很大一部分是为了 X.AI。今天,我们想要深入探讨特斯拉的 AI 容量,H100,以及按季度估计的 Dojo 能力的增长,并探讨由于他们的模型架构、训练基础设施和边缘推理(译者注:此处"边缘推理"是指特斯拉车辆或机器人里的 AI 模型的运行),包括 HW 4.0,而对特斯拉提出的独特需求。最后,我们想要讨论一下 X.AI 正在做些什么,这是马斯克对标 OpenAI 的项目,已经吸引了一些著名的 OpenAI 工程师。
D1 训练芯片的故事是一个漫长而艰辛的过程。它面临着从硅设计到电力传递的问题,但现在特斯拉声称它已经准备好进入聚光灯下,开始批量生产了。稍稍回顾一下,大约从 2016 年起,特斯拉一直在为其汽车设计内部 AI 芯片,并自从 2018 年起用于数据中心应用。在芯片被公布之前,我们曾独家披露了他们所使用的特殊封装技术。这项技术被称为 InFO SoW。简单地说,可以将其视为一个与晶圆尺寸相当的多芯片封装技术。原则上与 Cerebras 类似(译者注:Product - Chip - Cerebras),但 InFO SoW 具有允许已知良好晶片测试的优势。作为特斯拉架构的最独特和有趣的方面,这个 InFO-SoW 中封装了 25 个芯片,但没有内存。
我们在 2021 年详细地讨论了他们芯片架构的利弊。最有趣的是,有消息披露,因为 D1 自身芯片内部内存不足,特斯拉后来不得不制作另一款基于 PCIe 的芯片,用于给 D1 提供外部内存连接。
特斯拉曾多次计划在 2022年 进行量产,但由于各种芯片和系统的问题,量产从未实现。现在已经是 2023 年中期了,它终于开始大规模量产了。该架构非常适合特斯拉独特的 AI 训练场景,但值得指出的是,该构架因为受限于内存带宽瓶颈的影响,它并不适用于大型语言模型训练。
特斯拉的训练场景是独特的,因为它专注于图像网络。因此,他们的架构有很大的不同。过去,我们曾讨论过深度学习推荐网络和基于 Transformer 的语言模型需要非常不同的架构。图像/视频识别网络对计算、芯片间通信、芯片内部内存和芯片外部内存储的要求截然不同。
这些卷积模型(译者注:指特斯拉的图像/视频识别模型)在训练过程中对 GPU 的利用率非常低。随着 Nvidia 的下一代芯片在 Transformer 优化的道路上越走越远,尤其是稀疏 MoE(多路复用编码)方面的优化,证明了特斯拉对于自己的独特场景优化的卷积架构的投资的正确性,应该会取得良好的效果,因为这些图像网络必须符合特斯拉推理基础设施的限制。
虽然训练芯片是由台积电制造的,但在特斯拉电车内部运行 AI 推理芯片被称为全自动驾驶(FSD)芯片。特斯拉电车上的模型非常有限,因为他们坚信不需要在电车用巨大的性能来实现全自动驾驶。此外,特斯拉比 Waymo 和Cruise 有更严格的成本约束,因为他们需要大量地生产和出售随车搭载的芯片。与此同时,Alphabet 的 Waymo 和 GM 的 Cruise 在开发和早期测试阶段使用了成本高出 10 倍的全尺寸 GPU,并计划为他们的汽车制造更快(同时也是更昂贵)的 SoCs(芯片)。
第二代芯片从 2023 年 2 月开始在特斯拉电车上使用,这款芯片的设计与第一代芯片非常相似。第一代芯片基于三星的 14nm 工艺,拥有三个四核的芯片,总共有 12 个 Arm Cortex-A72 核,主频为 2.2 GHz。在第二代设计中,公司将 CPU 数量提升到了五个四核芯片,总共有 20 个 Cortex-A72 核。
第二代 FSD 芯片最重要的部分是三个 NPU(神经网络处理器)核心。这三个核心每个使用 32MB SRAM 内存来存储模型权重和激活值。每个芯片时钟周期(cycle)里,从 SRAM 读取 256 个字节的激活值和 128 个字节的模型权重,传送到乘积累加单元(MAC)。MAC 的设计是一个网格,每个 NPU 核心有一个 96x96 的网格,总共有 9,216 个 MAC,每个时钟周期里可以进行 18,432 个操作。每个芯片上的三个 NPU 以 2.2 GHz 的频率运行,总计算能力为 121 万亿次每秒(TOPS)。
第二代 FSD 拥有 256GB 的 NVMe 存储和 16GB 的 Micron GDDR6,速度为 14Gbps,连接在 128 位内存总线上,总线带宽 224GB/s。后者(总线带宽)是最值得注意的变化,因为带宽与上一代相比增加了约 3.3 倍。通过一、二代的 FLOPs(计算能力)和带宽的比较,可以看到,上一代 HW3 存在计算能力超过带宽的问题。每个新一代 HW 4.0 板上有两块 FSD 芯片。
HW4 的性能提升带来了额外的功耗。与 HW3 相比,HW4 的闲置功耗约为两倍。在峰值时,我们也预计它会更高。HW4 外表面上的文字显示为 10 安培和 16 伏特,相当于(最大)160 瓦的功率。
尽管 HW4 的性能提高,特斯拉仍希望 HW3 也能实现全自动驾驶,可能是因为他们不想为已购买 FSD 的现有 HW3 用户进行升级改装。
娱乐系统使用了 AMD GPU/APU。与上一代相比,它现在也位于与 FSD 芯片相同的主板上,而不是一个独立的子板。
HW4 平台支持 12 个摄像头,其中一个备用,因此有 11 个摄像头处于激活状态。在上一代中,前置摄像头盒里有三个低分辨率的 120 万像素的摄像头。新一代平台使用了两个更高分辨率的 500万像素的摄像头。
特斯拉目前不使用 LIDAR 传感器或其他类型的非摄像头方法。过去,他们曾使用雷达,但在后来被移除。这显著地降低了车辆制造成本,特斯拉非常专注于成本优化。公司认为纯摄像头感知是实现自动驾驶的可能途径。然而,他们还指出,如果有可行的雷达可用,他们愿意将其与摄像头系统整合。
在 HW4 平台里,有一个名为 Phoenix 的特斯拉自己设计的雷达。Phoenix 将雷达系统与摄像头系统结合起来,旨在通过利用更多数据来创造更安全的车辆(自动驾驶)。Phoenix 雷达在 76-77 GHz 波段上工作,峰值有效等向辐射功率(EIPR)为 4.16 瓦特,平均等向辐射功率为 177.4 毫瓦。它是一种非脉冲型汽车雷达系统,具有三种感知模式。雷达 PCB 板上包括一个用于传感器融合的 Xilinx Zynq XA7Z020 FPGA 可编程芯片。
特斯拉致力于为其智能化机器人和电车提供基础性的 AI 模型。两者都需要感知到周围环境并在其中进行导航,因此可以将相同类型的 AI 模型应用于两者。为未来的智能自主平台创建高效的模型需要大量的研究,更具体地说,需要大量的数据。此外,使用这些模型的推理必须在极低的功耗和低延迟的情况下完成。(机器人和电车上的)硬件极大地限制了特斯拉 AI 模型的大小。
在所有公司中,特斯拉拥有最大规模的数据集,用于训练深度学习神经网络。路上的每辆特斯拉电车都使用传感器和图像来捕获数据,再乘以路上特斯拉电车的总数量,给了他们一个极其庞大的数据集。特斯拉将其数据收集部分称为“全车队自动标注”。每辆特斯拉电车都会周而复始的收集、记录数据,每个记录约长 45-60 秒,里面包含很多传感器数据,包括视频、惯性测量单元(IMU)数据、GPS、里程数据等,并将其发送到特斯拉的数据中心的 AI 训练服务器上。
特斯拉的模型进行分割、掩码、深度识别、点匹配和其他任务的训练。通过在路上数百万辆特斯拉电车,特斯拉拥有大量非常高质量的标记好的数据源。这使得该公司可以在其数据中心的Dojo超级计算机上进行持续训练。
然而,特斯拉在海量数据方面的信念与公司目前为止建立的相对薄弱的用于 AI 训练的硬件基础设施相矛盾。特斯拉只使用了他们收集到的数据的一小部分。由于其严格的电车内部推理硬件的限制,特斯拉非常喜欢用数据过度训练(overtrain)一众小模型(译者注:HW 3 和 4 都相对来说比较弱,无法运行大模型 ),来达到最佳的自动驾驶的水平。
过度训练的小模型会导致全自动驾驶性能遇到瓶颈,而且也无法使用所有收集到的数据。许多公司的选择是用尽可能大的数据集进行模型训练,生成大模型,因为他们准备在车子里用很强大的 AI 推理芯片。例如,Nvidia 计划在2025 年向汽车客户提供具有超过 2,000 TOPS 的计算能力的 DRIVE Thor 芯片,这比特斯拉的新 HW4 的能力高出 15 倍以上。此外,Nvidia 的架构可以更加灵活地使用其他模型类型。
真正的汽车厂(Ford, GM, VW, BMW, etc)没有特斯拉 AI 软件、硬件强;
真正的软件厂(谷歌,Waymo)没有特斯拉的车多;
所有人都没有特斯拉数据多;
别人堆硬件(更猛的 GPU 集群,更好的车载推理芯片,但要等),特斯拉堆数量,就现在;
别人走人族、神族路线,特斯拉走虫族方向!
^https://www.vehiclesuggest.com/tesla-activates-nvidia-h100-gpu-cluster-for-fsd-training/
^Dylan Patel, Aleksandar Kostovic, 2023/06/28, ”Tesla AI Capacity Expansion – H100, Dojo D1, D2, HW 4.0, X.AI, Cloud Service Provider“ https://www.semianalysis.com/p/tesla-ai-capacity-expansion-h100