“加速计算和AI标志着计算的革新。”NVIDIA创始人兼首席执行官黄仁勋在Computex 2023上表示,“我们现在正处于一个全新计算时代的转折点,加速计算和AI已经被世界上几乎所有的计算和云公司采用。”
如今,计算机产业已经迎来了两个根本性的转变。
其一,CPU的性能增长和算力需求的差异日益拉大。其不仅无法用同样的成本和电力消耗,来保持算力的增长,也不能达到原来每五年性能提升十倍的能力。
其二,数据中心即计算机,一个应用程序需要在整个数据中心的所有计算资源上运行。比如,由AI驱动的工作负载规模要在整个数据中心的所有GPU和CPU上进行计算。这带来了架构方面的改变,不仅需要优化芯片和算力,还要在软件上加入开发接口,让网络和交换机实现端到端的高性能传输。
与此同时,与生成式AI和大模型有关的上层应用也被不断推出。
在此发展趋势下,NVIDIA提出了全栈加速计算架构,以支持生成式AI和大模型的发展。
那么,何为全栈加速计算架构呢?就是对AI工作负载进行从上到下及从下到上的全新设计。在硬件层面,通过CPU、GPU、DPU等多种硬件,为客户提供丰富的硬件计算平台和网络通信平台。在架构的中间层面,提供系统软件、加速库和相应的平台,让客户能够在整个加速计算的框架中,根据需求进行选择。
(来源:资料图)
其中,为了帮助客户在云环境中构建生成式AI或AI工作负载,提升网络性能,NVIDIA推出了新的网络平台,即加速以太网平台NVIDIA Spectrum-X。
“诸如生成式AI等革命性技术正在推动各家企业提升数据中心性能的极限,从而获得更多竞争优势。作为新一代以太网络,NVIDIA Spectrum-X为新一代AI工作负载扫清障碍,将会彻底改变整个行业。”NVIDIA网络高级副总裁Gilad Shainer表示。
简单来说,原来面向企业应用的以太网,主要面向基础网络连接、微服务业务支撑、网络安全、网络管理和虚拟化等基本功能,对于性能的追求难以达到极致;而Spectrum-X面向的是性能为王的生成式AI的市场,能够帮助用户节约训练成本、缩短训练时间,进而推动大模型尽快上市。
Spectrum-X平台并非是一个单产品的形态,而是涉及到Spectrum-4以太网交换机、BlueField-3 DPU、LinkX 线缆及模块和相关软件。它们通过相互协同,构建了一个端到端的400GbE网络,具有高度的通用和高性能,能够为生成式AI在云端提供规模化的能力。
该平台具有四个主要特性,分别是无损网络、动态路由、流量控制和性能隔离。这与传统以太网完全不同,基于这种方式在云上部署AI的工作负载,可以满足对网络性能的要求。
也就是说,AI应用通常具有分布式、紧耦合的特点,因此对数据传输有更高的要求。而Spectrum-X主要是用来解决数据中心内部东西向流量的加速和性能需求,实现高带宽和高利用率。
那么,为什么需要无损网络呢?这是因为,在进行AI训练时,不能发生数据丢失的情况,否则会对训练结果造成严重影响。
同时,为了满足生成式AI在云上的大规模和可扩展,Spectrum-X会针对云上的AI工作负载,进行端到端的优化,如面向NCCL进行RoCE优化,在无损以太网上实现RoCE动态路由等。在这种情况下,有效网络带宽能够实现从60%到95%的提升。
具体来说,由发送端BlueField-3 DPU先将数据发送到交换网络,Spectrum-4 根据网络的繁忙状况将数据包负载均衡到所有可用路线,再由接收端BlueField-3 DPU执行数据乱序重组,相较传统的以太网,Spectrum-X平台的有效网络带宽实现了1.6倍的提升。
(来源:资料图)
通常情况下,在多个发送方发送数据到单一接收方时,很容易在交换机上发生拥塞。借助Spectrum-X平台,可实现不同工作负载之间的性能隔离。首先,BlueField-3 DPU可以通过遥测技术对网络流量进行监测,主动采集Spectrum-4 发出的拥塞状况数据,再通过可编程拥塞控制技术来调整和控制数据流,在早期阶段就让拥塞得到缓解。
(来源:资料图)
据介绍,用于驱动Spectrum-X的加速软件有Cumulus Linux、SONiC 和 NetQ 等。
Cumulus是基于传统的Linux开发出的交换机上使用的网络操作系统,可以运行在Spectrum-4交换机上,为大型数据中心提供自动化、定制化扩展的功能。SONiC主要面向Open Source,相当于一种被大规模云服务提供商使用的开源网络操控系统,也可以运行在Spectrum-4交换机上,客户既可以进行自己的功能定制,又可以混合使用,应用场景非常灵活;NetQ则是一个可扩展的网络运营工具集,能够开展自动化的网络操作流程,通过可视化的方式管理运维网络、发现故障并进行排除。
据悉,目前,提供Spectrum-X方案的公司有戴尔科技、联想和超微。Spectrum-X端到端以太网网络平台已经上市,并已被全球超大规模云服务商采用,包括云创新企业。
基于最新开发的Spectrum-X平台,NVIDIA推出了生成式AI云超级计算机Israel-1。作为一款AI超级计算机,Israel-1由256台基于NVIDIA HGX平台的戴尔服务器(共有2048个GPU)、2560 BlueField-3 DPU 和80多台Spectrum-4 交换机构成,能够提供8 EFlop/s (8000PFlop/s)的峰值 AI 训练性能。
(来源:资料图)
另据悉,Israel-1将被部署在NVIDIA以色列数据中心上,用户能够切实地看到Spectrum-X平台是如何运行生成式AI和其他工作负载,以真正有效地解决性能需求的。
能够预见的是,如果Israel-1完成部署,其将会成为全球性能排名靠前的超级计算机之一,成为构建生成式AI云的参考设计模型。
综上可以看出,现代数据中心工作负载不可避免地带来了相比之前更加巨量的数据处理量,这种发展趋势随之为网络基础设施的改变提出了要求。而Spectrum-X平台正是基于当下的网络发展趋势而诞生,能为面向生成式AI的以太网架构提供量身定制的高性能网络。