大模型时代：华为让以太网进化，打通数据运力动脉

作者：闫跃龙发布时间：2023-11-27

随着大模型时代的到来，算力需求呈现出指数级增长。据统计，2012年到2019年AI训练算力平均每100天翻倍，而GPU单卡算力则需要2-3年增长一倍。GPU卡集群成为应对算力需求高速增长的方案，随着AI模型进入万亿参数模型时代，GPU卡的数量也提高到万卡规模，据了解，OpenAI使用25000张A100 GPU训练1.8万亿参数的GPT4。

正是在AI计算集群支撑下，超万亿参数大模型的高效训练成为可能，大模型加速进入各行各业。在最近举行的华为年度最重要的ICT盛会上，“大模型”成为最重要的关键词，华为从算力、运力、存力等多个维度全线出击，使能百模千态，赋能千行万业，加速行业智能化。

其中，华为最令人关注的重磅创新之一，来自数据中心网络，华为对以太网进行进化，研发出超融合以太技术，正是这项创新，让数据中心网络释放出最大潜力，使得上万张AI板卡高效协同，成为万亿参数大模型时代的坚固基石。

为数据中心网络装上智慧调度大脑

想象一下，一个超大型机场如果没有调度系统，多条跑道同时起飞降落飞机的时候会发生什么？

这样的景象其实也发生在数据中心。随着AI进入大模型时代，计算也进入分布式训练的时代，即计算任务以数据并行、流水线并行、张量并行等分布式并行方式分配到多台服务器上，以加快模型训练速度。这个时候，多台服务器之间就需要同步参数、梯度、中间变量，在大模型训练时，单次参数同步量高达100MB-几GB的量级。如何协作数万张处理器，保证不随着算力规模的增大而效率大幅降低，避免出现1+1<2的效果，是一大问题。

并行计算下，网络负载均衡就是其中的关键。无论是数据并行，还是流水线并行，或是张量并行，多机之间都需要通过多次AllReduce集合通信操作来传递计算结果。AllReduce集合通信的特征是多打一，流数少、单流带宽大，同一时间均是点到点通信，其完成需要所有点对点通信都成功完成。这时候就存在“木桶效应”，木桶中盛的水由最短的木板所决定，而AllReduce的完成时间，也由其中最慢的点对点通信时间所决定。

正是因为这种木桶效应，智算数据中心网络会遇到网络负载不均衡问题，如何进行链路的负载均衡成为关键。在没有实现全局负载均衡的网络中，整体通信效率仅在30%-56%之间，这意味着有一半以上的网络性能没有被高效利用，同样，这意味着整个AI集群的算力效率只有不到一半。因此，AI集群网络的吞吐效率将直接影响整个智算中心集群的效率。

目前有很多网络负载均衡技术，但其缺点在于绝大多数技术只解决了本地等价路径之间的均衡，是局部视角而非全局视角。甚至对于AI训练这种吞吐敏感性业务，传统的ECMP流量均衡机制也很难实现本地路径的完美均衡。

正是在这样的背景下，华为提出了网络级负载均衡（Network Scale Load Balance，NSLB）的概念，顾名思义，其是基于算网协同实现多任务全局均衡路由，通过全局拥塞状态的自适应路由算法，实现AI训练流量满吞吐和网络带宽的完全利用。

在华为全联接大会2023上，华为发布的面向智算场景的业界首款高运力AI智算交换机CloudEngine XH16800，就是在NSLB算法的加持下，实现网络一键调优，可以根据整网交换机节点流拥塞状态和全网拓扑状态进行全局算路，识别出最优路径，整网吞吐可以提升到高达98%。

这意味着智算数据中心的吞吐翻了一倍，当然，这也意味着智算数据中心的集群效率提升了一倍。华为相当于是为数据中心网络装上了一个智慧调度大脑，可以智能优化网络负载均衡，将网络吞吐量做到极致。

大模型时代的“数据中心网络样板”

实际上，华为在数据中心网络上的创新不止于此。华为全新升级的CloudFabric 3.0超融合数据中心网络，就以一系列底层技术创新，定义了大模型时代的“数据中心网络样板”。

目前业界主流的计算互联协议有RoCE和IB两种，其中据绝对领先份额的IB主要掌握在国外巨头手中，技术和产品生态都比较封闭。而且，AI网络里存在参数面、存储面、业务面、管理面等多个平面，IB只用在参数面里面，其他网络需要使用以太协议，这意味着需要两套运维系统。相比起来，RoCE生态相对开放，可以完全复用以太生态，而且着力实现网络的无损传输，被认为是未来计算互联的重要路径。

华为基于RoCE，研发出超融合以太技术，除了上面提到的NSLB技术带来的网络负载拥塞控制优势，还有完善的流量控制、流量调度、应用加速功能，而且独家实现了以太网0丢包功能。从华为推出的CloudFabric3.0超融合数据中心网络来看，其具有超强性能，独家AI加速器（NSLB）网络吞吐提升至98%，AI训练效率可提升20%；超稳可靠，训前智能自检，保障100%网络健康；超快部署，多云多厂商实现天级设备管理，分钟级业务编排，网络与计算协同，端到端即插即用，开局效率提升10倍；超智运维，独家网络数字地图使能计算网络一体化运维，通信异常一键诊断，实现训中排障效率提升90%。

如果我们将目标着眼于数据中心，其中同样存在木桶效应。在构成数据中心的关键要素——存储、计算、网络等木板中，网络是最短的那块木板。但是网络又非常关键，其连接着用户终端和数据中心内部的计算、存储等设备，保障数据通信链路上高效、安全的传输。华为超融合以太技术，将数据中心网络从传统以太、无损以太向超融合以太升级，从网络架构、带宽、时延、可靠性、应用加速、网络技术演进六大方面全面升级，补齐了网络这个短板。

更重要的是，这个解决方案不仅性能强，而且成本低。通过将通用计算网络、存储网络、高能能计算网络和智能计算网络统一承载在0丢包以太网技术栈上，相当于实现了多张网到一张网的融合部署。此举不仅降低了网络的建设成本，而且在一系列智能化运维技术的加持下，还能实现运维成本的节省。最近，华为发布了L4数据中心自动驾驶网络方案及白皮书，这意味着在L3.5数据中心自动驾驶网络的基础上，数据中心网络将朝着高度自动化的更高度迈进。

武汉超算中心就是很好的样本，其采用华为超融合以太解决方案，打造出一张性能、兼容性、成本效益和灵活性兼具的高性能网络。事实上，在项目部署前，武汉超算中心曾经对96节点集群规模下，华为的方案和IB方案进行过全面对比测试。测试表明，在MPI、Benchmark和HPC典型应用测试中，华为智能无损高性能计算网络性能与IB网络整体基本持平，局部小幅领先，完全满足业务的高性能需求。

在华为全联接大会2023上，华为重磅发布面向AI智算场景的华为星河AI网络，可以预计，在星河AI网络的加持下，数据中心网络将能实现AI时代的最强运力，支撑起大模型时代的璀璨星河。