今天分享的是AI系列深度研究报告:《AI大模型专题:大模型时代,智算网络性能评测挑战》。
(报告出品方:中国移动研究院)
报告共计:18页
海量/完整电子版/报告下载方式:公众号《人工智能学派》
智算中心是以GPU芯片为核心的计算基础设施和以高速以太网交换芯片为核心的网络基础设施的综合体, 智能算力需求激增推动计算与网络基础设施建设不断布局。
AI大模型以算力集群分布式训练为基础,带来大量节点间通信消耗,组网规模、网络性能和可靠性决定集群有效算力, 网络成为AI算力“瓶颈”,以网强算成为提升大模型训练效率的关键。
集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时}。
智算中心网络用于连接CPU、GPU、内存等池化异构算力资源,贯穿数据计算、存储全流程,网络性能增强对提升智算;
中心整体算力水平具有关键意义;与通用云计算网络不同,AI参数面网络要求极高,是业界关注焦点。
通用算力以CPU芯片为主,业务种类多流量小,业务间相互独立;
智能算力以GPU、Al芯片等人工智能芯片为主, 通信关系固定,流数量少流量大,分布式训练带来大量节点的同步突发,木桶效应明显。
通算中心流量模型:单个流量:数量多、带宽小、突发异步。累积流量:抖动幅度较小,具有随机性。
智算中心大模型(All-to-all)流量模型:单个流量:数量少、带宽大、突发同步。累积流量:波峰、波谷效应明显,具有周期性。
业界主流通算中心与智算中心均采用spine-leaf架构,但两者端口速率、组网方式、网络协议均存在差异性。
通算中心组网方案:端口速率方面:服务器端口10GE/25GE并存,汇聚层从40GE向 100GE演进。服务器网卡数量:一机双卡。设备关系:交换机设备之间部署MC-LAG。组网形态:Leaf为盒式设备,Spine多为框式设备。
智算中心组网方案:端口速率方面:服务器端口200GE/400GE,汇聚层 400GE/800GE。服务器网卡数量:一机八卡。设备关系:交换机设备之间独立。组网形态:Leaf为盒式设备,Spine多为盒式设备。
智算中心具有明显的通信特征,且AI技术的快速发展推动算、网软硬件技术的快速迭代升级, 制定普适统一的智算中心网络性能评测体系仍面临诸多挑战。
节点规模:模拟GPU实际的计算、周期性通信,测试结果是否可以客观反映实际结果。 仪表是否能支持千卡级、甚至万卡即模拟能力。
性能指标:测试仪端口、规模是否能匹配网络的演进速度。能够反映的新指标(有效带宽、长尾时延等)。
模型种类:基本的通信原语&通信原语不同的实现方式。支持大模型的种类、测试工具迭代速度是否能匹配。不同模型对网络的性能评价标准能否归一。
定制化:端网协同是趋势,需同时兼做网卡和网络。私有拥塞控制协议、传输协议等优化,是否具备灵活的可编程能力和定制化功能。
报告共计:18页
海量/完整电子版/报告下载方式:公众号《人工智能学派》