随着大模型时代的到来,算力需求呈现出指数级增长。据统计,2012年到2019年AI训练算力平均每100天翻倍,而GPU单卡算力则需要2-3年增长一倍。GPU卡集群成为应对算力需求高速增长的方案,随着AI模型进入万亿参数模型时代,GPU卡的数量也提高到万卡规模,据了解,OpenAI使用25000张A100 GPU训练1.8万亿参数的GPT4。
正是在AI计算集群支撑下,超万亿参数大模型的高效训练成为可能,大模型加速进入各行各业。在最近举行的华为年度最重要的ICT盛会上,“大模型”成为最重要的关键词,华为从算力、运力、存力等多个维度全线出击,使能百模千态,赋能千行万业,加速行业智能化。
其中,华为最令人关注的重磅创新之一,来自数据中心网络,华为对以太网进行进化,研发出超融合以太技术,正是这项创新,让数据中心网络释放出最大潜力,使得上万张AI板卡高效协同,成为万亿参数大模型时代的坚固基石。
想象一下,一个超大型机场如果没有调度系统,多条跑道同时起飞降落飞机的时候会发生什么?
这样的景象其实也发生在数据中心。随着AI进入大模型时代,计算也进入分布式训练的时代,即计算任务以数据并行、流水线并行、张量并行等分布式并行方式分配到多台服务器上,以加快模型训练速度。这个时候,多台服务器之间就需要同步参数、梯度、中间变量,在大模型训练时,单次参数同步量高达100MB-几GB的量级。如何协作数万张处理器,保证不随着算力规模的增大而效率大幅降低,避免出现1+1<2的效果,是一大问题。
并行计算下,网络负载均衡就是其中的关键。无论是数据并行,还是流水线并行,或是张量并行,多机之间都需要通过多次AllReduce集合通信操作来传递计算结果。AllReduce集合通信的特征是多打一,流数少、单流带宽大,同一时间均是点到点通信,其完成需要所有点对点通信都成功完成。这时候就存在“木桶效应”,木桶中盛的水由最短的木板所决定,而AllReduce的完成时间,也由其中最慢的点对点通信时间所决定。
正是因为这种木桶效应,智算数据中心网络会遇到网络负载不均衡问题,如何进行链路的负载均衡成为关键。在没有实现全局负载均衡的网络中,整体通信效率仅在30%-56%之间,这意味着有一半以上的网络性能没有被高效利用,同样,这意味着整个AI集群的算力效率只有不到一半。因此,AI集群网络的吞吐效率将直接影响整个智算中心集群的效率。
目前有很多网络负载均衡技术,但其缺点在于绝大多数技术只解决了本地等价路径之间的均衡,是局部视角而非全局视角。甚至对于AI训练这种吞吐敏感性业务,传统的ECMP流量均衡机制也很难实现本地路径的完美均衡。
正是在这样的背景下,华为提出了网络级负载均衡(Network Scale Load Balance,NSLB)的概念,顾名思义,其是基于算网协同实现多任务全局均衡路由,通过全局拥塞状态的自适应路由算法,实现AI训练流量满吞吐和网络带宽的完全利用。
在华为全联接大会2023上,华为发布的面向智算场景的业界首款高运力AI智算交换机CloudEngine XH16800,就是在NSLB算法的加持下,实现网络一键调优,可以根据整网交换机节点流拥塞状态和全网拓扑状态进行全局算路,识别出最优路径,整网吞吐可以提升到高达98%。
这意味着智算数据中心的吞吐翻了一倍,当然,这也意味着智算数据中心的集群效率提升了一倍。华为相当于是为数据中心网络装上了一个智慧调度大脑,可以智能优化网络负载均衡,将网络吞吐量做到极致。
实际上,华为在数据中心网络上的创新不止于此。华为全新升级的CloudFabric 3.0超融合数据中心网络,就以一系列底层技术创新,定义了大模型时代的“数据中心网络样板”。
目前业界主流的计算互联协议有RoCE和IB两种,其中据绝对领先份额的IB主要掌握在国外巨头手中,技术和产品生态都比较封闭。而且,AI网络里存在参数面、存储面、业务面、管理面等多个平面,IB只用在参数面里面,其他网络需要使用以太协议,这意味着需要两套运维系统。相比起来,RoCE生态相对开放,可以完全复用以太生态,而且着力实现网络的无损传输,被认为是未来计算互联的重要路径。
华为基于RoCE,研发出超融合以太技术,除了上面提到的NSLB技术带来的网络负载拥塞控制优势,还有完善的流量控制、流量调度、应用加速功能,而且独家实现了以太网0丢包功能。从华为推出的CloudFabric3.0超融合数据中心网络来看,其具有超强性能,独家AI加速器(NSLB)网络吞吐提升至98%,AI训练效率可提升20%;超稳可靠,训前智能自检,保障100%网络健康;超快部署,多云多厂商实现天级设备管理,分钟级业务编排,网络与计算协同,端到端即插即用,开局效率提升10倍;超智运维,独家网络数字地图使能计算网络一体化运维,通信异常一键诊断,实现训中排障效率提升90%。
如果我们将目标着眼于数据中心,其中同样存在木桶效应。在构成数据中心的关键要素——存储、计算、网络等木板中,网络是最短的那块木板。但是网络又非常关键,其连接着用户终端和数据中心内部的计算、存储等设备,保障数据通信链路上高效、安全的传输。华为超融合以太技术,将数据中心网络从传统以太、无损以太向超融合以太升级,从网络架构、带宽、时延、可靠性、应用加速、网络技术演进六大方面全面升级,补齐了网络这个短板。
更重要的是,这个解决方案不仅性能强,而且成本低。通过将通用计算网络、存储网络、高能能计算网络和智能计算网络统一承载在0丢包以太网技术栈上,相当于实现了多张网到一张网的融合部署。此举不仅降低了网络的建设成本,而且在一系列智能化运维技术的加持下,还能实现运维成本的节省。最近,华为发布了L4数据中心自动驾驶网络方案及白皮书,这意味着在L3.5数据中心自动驾驶网络的基础上,数据中心网络将朝着高度自动化的更高度迈进。
武汉超算中心就是很好的样本,其采用华为超融合以太解决方案,打造出一张性能、兼容性、成本效益和灵活性兼具的高性能网络。事实上,在项目部署前,武汉超算中心曾经对96节点集群规模下,华为的方案和IB方案进行过全面对比测试。测试表明,在MPI、Benchmark和HPC典型应用测试中,华为智能无损高性能计算网络性能与IB网络整体基本持平,局部小幅领先,完全满足业务的高性能需求。
在华为全联接大会2023上,华为重磅发布面向AI智算场景的华为星河AI网络,可以预计,在星河AI网络的加持下,数据中心网络将能实现AI时代的最强运力,支撑起大模型时代的璀璨星河。