今天分享的是AIGC系列深度研究报告:《AIGC报告:算力网络再讨论!从Dojo架构到算法的硬件延伸》。
(报告出品方:SWS)
报告共计:39页
海量/完整电子版/报告下载方式:公众号《人工智能学派》
Tesla Dojo的革新,启发我们进一步思考算力和网络的关系。硬件架构服从于算法设计,硬件需求的判断也不能与软件和应用层面脱钩。算力网络主线新一阶段的重要机会,应核心关注海外爆款应用或模型侧重大更新(Tesla是代表样本),以及国内新一轮的模型与应用开发。我们判断,随着国内科技大厂的网络演进至400G以上、运营商400G全光网推进建设、本土模型训练组网等加速,国内市场的高速网络需求将显著提升。算力网络与流量环节AI服务器计算环节、华为产业链以及特斯拉与智能车产业链相关标的应重点关注。原因及逻辑:
1)带宽与连接架构是决定算力性能的因素,
2)芯片层面的高速chip-to-chip连接方案是高速网络、光通信需求的底层逻辑;3)单SoC性能提升+芯片“堆量”,不意味着算力集群整体性能的线性提升,网络设计是瓶颈。
市场担心Tesla Dojo架构是否具有颠覆性,及对光通信/传统AI架构的冲击。我们认为,硬件架构服从于算法设计与当前AI算力算法领域其他巨头不同,Tesla的AI方案根植于其能源/车/具身智能等垂直场景,具有独特性和难复制性。Doio的发展历程与技术特征反而启示我们,对于算力网络硬件需求的判断,要结合特定场景,或者说,下阶段的算力网络投资,重点应关注场景应用的催化。
市场对国内算力网络的需求有预期差。我们基于对Doio架构的思考,延伸至Gogle TPU系列以及华为链的重要变化,包括星河AI网络白皮书、异腾AL计算集群Atlas 900 SuperCluster等。我们认为,本RCE等网络及400G以上光通信演进,是进一步重要趋势。英伟达解决集群性能瓶颈的方式是引入InfiniBand网络,并将C2C场景下应用的NVLink延伸至设备间互联; Djo是2D mesh到3D组网,解决数据存取瓶颈,TPU则明显从算法到硬件矩阵化.结合本土产业实际,未来“普适化”的RoCE等网络以及400G以上速率的光通信是重要方向。
Tesla Dojo系统拆解如下(相关数据均引自Tesla官方披露内容):
维度1:最小计算单元是D1 Compute Die(其中354个Training nodes,大致类比为GPU核心)。
• 1个Training nodes拥有1.25 MB的片上SRAM,1 TFlop的FP16/CFP8算力,并包含了南-北-东-西 四个方向的NOC网络连接,直接与相邻的4个nodes相互连接,nodes间双向带宽达到256 GB/s。
D1片上SRAM共440 MB;算力性能362 TFlops BF16/CFP8,22 TFlops FP32 @2GHz。
D1基于TSMC 7 nm工艺,645 mm^2面积、400 W功耗,片上总带宽达5 TB/s。
维度2:25个D1芯片以5×5矩形阵列的形状,通过40个I/O Die相互连接,组成1个Training Tile。
维度3:每6个Tile搭配了20张Dojo Interface Processor(DIP),用于内存扩容、PCIe扩展、网络连接。
• DIP部署在6个Tile组成的阵列的边缘(20个DIP分为4组,每组5个DIP),其作用包括:
• 1)提供HBM扩展,形成共享的DRAM和单独的D1核心SRAM。
• 2)提供对外连接,例如通过每组DIP通过PCIe Gen4去连接1个Host System,以及通过TTPoE和外 部以太网交换机连接其他的DIP。
维度4:2个System Tray, 以及CPU为核心的Host组成1个机柜 (最小的集群单元) 。
Dojo试图打破冯诺依曼瓶颈,借助软件与网络,平衡系统中的时延、带宽、资源消耗量和传输距离。
• 实际上,Node-Die-Tile之间的网络带宽随着传输路径长度的增加而递减,如D1 Die之间的直连带宽 远大于Tile之间,且越长的传输路径就越消耗系统资源(例如Tile内die to die带宽2 TB/s@100 ns, 而Tile之外的die to die带宽下降至900 GB/s,系统边缘PCIe到Host的带宽仅160 GB/s)。
因此Dojo通过软件与网络设计,把大量的数据通信范围控制在本地较短的距离上,而长距离的全局通信则 聚焦在同步(synchronization)、All Reduce等环节。
• Dojo系统的多数数据处理可以在Tile或数个Tiles的层级上完成,因此主要的数据传输通过相邻D1 Die之间的片上直连、经过多跳完成,Die之间的I/O通道资源被充分利用;
• 而在数据传输路径太长时(例如横跨两个机柜),则可以通过外部TTPoE平衡时延和带宽。
与当前AI算力算法领域其他巨头不同,Tesla的AI方案根植于其能源/车/具身智能等垂直场景,具有独特性和难复制性。理由如下:
1)应用的指向性或专用性。
2)场景的局限性。
3)技术兼容难度。
极简设计,上文我们提到,Dojo的第一性原理是解决数据存取瓶颈,例如:
• 所 有 nodes 核 心 的 结 构 均 一 致 , 8×8×4的矩阵乘法器
• 片内无HBM;片内SRAM大小类似L2 cache;低寻址带宽……
• 此外标准化的IC成本也更低,例如 mask cost等。
如何进一步提升性能?模型训练的算力难点之一,是解决并行(Parallelism)问题。
AI大模型训练相比通用计算需要更多运算单元的同时参与,产业主流的并行方式包括:
• 1)数据并行(data parallelism),数据集分解成众多子集,并行训练;
• 2)流水线并行(pipeline parallelism),模型分层至不同处理器进行训练,减少对内存的需求;
• 3)张量并行(tensor parallelism),通过模型分解,减少每个处理器上的参数处理量。
此外神经网络训练中的Batch Normalization也很关键。
因此数据/模型在不同运算单元中的分发、计算、汇集模式,影响了性能,也决定了其网络架构的选择。
报告共计:39页
海量/完整电子版/报告下载方式:公众号《人工智能学派》