AIGC报告：算力网络再讨论！从Dojo架构到算法的硬件延伸（附下载）

作者：柒七七发布时间：2023-11-16

今天分享的是AIGC系列深度研究报告：《AIGC报告：算力网络再讨论！从Dojo架构到算法的硬件延伸》。

（报告出品方：SWS）

报告共计：39页

海量/完整电子版/报告下载方式：公众号《人工智能学派》

结论

Tesla Dojo的革新，启发我们进一步思考算力和网络的关系。硬件架构服从于算法设计，硬件需求的判断也不能与软件和应用层面脱钩。算力网络主线新一阶段的重要机会，应核心关注海外爆款应用或模型侧重大更新(Tesla是代表样本)，以及国内新一轮的模型与应用开发。我们判断，随着国内科技大厂的网络演进至400G以上、运营商400G全光网推进建设、本土模型训练组网等加速，国内市场的高速网络需求将显著提升。算力网络与流量环节AI服务器计算环节、华为产业链以及特斯拉与智能车产业链相关标的应重点关注。原因及逻辑：

1)带宽与连接架构是决定算力性能的因素，

2)芯片层面的高速chip-to-chip连接方案是高速网络、光通信需求的底层逻辑;3)单SoC性能提升+芯片“堆量”，不意味着算力集群整体性能的线性提升，网络设计是瓶颈。

有别于大众的认识

市场担心Tesla Dojo架构是否具有颠覆性，及对光通信/传统AI架构的冲击。我们认为，硬件架构服从于算法设计与当前AI算力算法领域其他巨头不同，Tesla的AI方案根植于其能源/车/具身智能等垂直场景，具有独特性和难复制性。Doio的发展历程与技术特征反而启示我们，对于算力网络硬件需求的判断，要结合特定场景，或者说，下阶段的算力网络投资，重点应关注场景应用的催化。

市场对国内算力网络的需求有预期差。我们基于对Doio架构的思考，延伸至Gogle TPU系列以及华为链的重要变化，包括星河AI网络白皮书、异腾AL计算集群Atlas 900 SuperCluster等。我们认为，本RCE等网络及400G以上光通信演进，是进一步重要趋势。英伟达解决集群性能瓶颈的方式是引入InfiniBand网络，并将C2C场景下应用的NVLink延伸至设备间互联; Djo是2D mesh到3D组网，解决数据存取瓶颈，TPU则明显从算法到硬件矩阵化.结合本土产业实际，未来“普适化”的RoCE等网络以及400G以上速率的光通信是重要方向。

Dojo：第一性原理是数据存取

 Tesla Dojo系统拆解如下（相关数据均引自Tesla官方披露内容）：

 维度1：最小计算单元是D1 Compute Die（其中354个Training nodes，大致类比为GPU核心）。

• 1个Training nodes拥有1.25 MB的片上SRAM，1 TFlop的FP16/CFP8算力，并包含了南-北-东-西四个方向的NOC网络连接，直接与相邻的4个nodes相互连接，nodes间双向带宽达到256 GB/s。

 D1片上SRAM共440 MB；算力性能362 TFlops BF16/CFP8，22 TFlops FP32 @2GHz。

 D1基于TSMC 7 nm工艺，645 mm^2面积、400 W功耗，片上总带宽达5 TB/s。

 维度2：25个D1芯片以5×5矩形阵列的形状，通过40个I/O Die相互连接，组成1个Training Tile。

 维度3：每6个Tile搭配了20张Dojo Interface Processor（DIP），用于内存扩容、PCIe扩展、网络连接。

• DIP部署在6个Tile组成的阵列的边缘（20个DIP分为4组，每组5个DIP），其作用包括：

• 1）提供HBM扩展，形成共享的DRAM和单独的D1核心SRAM。

• 2）提供对外连接，例如通过每组DIP通过PCIe Gen4去连接1个Host System，以及通过TTPoE和外部以太网交换机连接其他的DIP。

 维度4：2个System Tray，以及CPU为核心的Host组成1个机柜（最小的集群单元）。

网络架构，视角从2D到3D

 Dojo试图打破冯诺依曼瓶颈，借助软件与网络，平衡系统中的时延、带宽、资源消耗量和传输距离。

• 实际上，Node-Die-Tile之间的网络带宽随着传输路径长度的增加而递减，如D1 Die之间的直连带宽远大于Tile之间，且越长的传输路径就越消耗系统资源（例如Tile内die to die带宽2 TB/s@100 ns，而Tile之外的die to die带宽下降至900 GB/s，系统边缘PCIe到Host的带宽仅160 GB/s）。

 因此Dojo通过软件与网络设计，把大量的数据通信范围控制在本地较短的距离上，而长距离的全局通信则聚焦在同步（synchronization）、All Reduce等环节。

• Dojo系统的多数数据处理可以在Tile或数个Tiles的层级上完成，因此主要的数据传输通过相邻D1 Die之间的片上直连、经过多跳完成，Die之间的I/O通道资源被充分利用；

• 而在数据传输路径太长时（例如横跨两个机柜），则可以通过外部TTPoE平衡时延和带宽。

硬件架构，服从于算法设计

 与当前AI算力算法领域其他巨头不同，Tesla的AI方案根植于其能源/车/具身智能等垂直场景，具有独特性和难复制性。理由如下：

 1）应用的指向性或专用性。

 2）场景的局限性。

 3）技术兼容难度。

 极简设计，上文我们提到，Dojo的第一性原理是解决数据存取瓶颈，例如：

• 所有 nodes 核心的结构均一致， 8×8×4的矩阵乘法器

• 片内无HBM；片内SRAM大小类似L2 cache；低寻址带宽……

• 此外标准化的IC成本也更低，例如 mask cost等。

提升性能的思路众多，大厂各有异同

 如何进一步提升性能？模型训练的算力难点之一，是解决并行（Parallelism）问题。

 AI大模型训练相比通用计算需要更多运算单元的同时参与，产业主流的并行方式包括：

• 1）数据并行（data parallelism），数据集分解成众多子集，并行训练；

• 2）流水线并行（pipeline parallelism），模型分层至不同处理器进行训练，减少对内存的需求；

• 3）张量并行（tensor parallelism），通过模型分解，减少每个处理器上的参数处理量。

 此外神经网络训练中的Batch Normalization也很关键。

 因此数据/模型在不同运算单元中的分发、计算、汇集模式，影响了性能，也决定了其网络架构的选择。

报告共计：39页

海量/完整电子版/报告下载方式：公众号《人工智能学派》

AIGC报告：算力网络再讨论！从Dojo架构到算法的硬件延伸（附下载）

结论

有别于大众的认识

Dojo：第一性原理是数据存取

网络架构，视角从2D到3D

硬件架构，服从于算法设计

提升性能的思路众多，大厂各有异同

推荐体验

相关资讯

计算机行业AIGC系列之二十三：算力网络再讨论！从Dojo架构到算法的硬件延伸

AIGC行业深度报告（12）：Sora算力倍增，国产架构生态崛起（附下载）

AIGC算力全景与趋势报告(附下载)

AIGC算力全景与趋势报告（附下载）

AIGC专题：Sora算力倍增，国产架构+生态崛起（附下载）

近期资讯

中孚生物取得超声波粗洗机专利，提高药瓶清洁效率

西安热工研究院有限公司取得多场复合的活性炭深度清洗设备专利，提高活性炭的清洁度

宁德邦源能源科技取得一种电池铝壳超声波清洗设备专利，提高装置清洗效率

益阳仪纬科技取得铝合金件铸造用清洗装置专利，有效提升铝合金件清洗效率和质量

井成博高取得阀门制造用的内部残留物清洗设备专利，方便对清洗设备内底面尘屑清理，提高实用性

西安华兴搏发光电科技取得镜片清洗设备专利，使镜片装夹死角得到充分清洗

洛阳隆中重工取得一种超声波擦洗机专利，拆卸维护更方便

研究显示AI可能会被用来操控用户的选择相关用户数据将被出售

镇江金裕精密零件取得一种针孔件加工清洗槽专利，避免杂质和污染物引入，提高清洗环境洁净度

安凯微：已量产的0.5T OPS和2T OPS算力的视觉SoC适用于家用摄像机等

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响