在大模型和生成式AI的大风口下,NVIDIA大力倡导并率先进军传统数据中心的高端市场——加速计算数据中心。自进入AI和大数据时代,业界就开始出现“加速计算”的概念。简单理解,加速计算即使用GPU、FPGA以及各种DPU等加速芯片以及相关的软件技术,对传统数据中心计算进行“加速”,以满足AI、大数据、边缘计算等特定计算场景的需求。
而自从2023年初大模型和生成式AI爆火后,加速计算在一夜之间迅速占领了业界“头条”,NVIDIA也在这一波市场热度中冲到了万亿美元市值,既赚足了全球科技产业的眼球,又赚得“盆满钵满”。为了进一步夯实加速计算,NVIDIA在前不久的COMPUTEX 2023上推出了全套的生成式AI数据中心方案,特别是全球首个专为生成式AI而构建的Spectrum-X以太网网络架构,意在创造一个全新的AI云高性能数据中心市场。
新推出的NVIDIA Spectrum-X网络平台是对现有数据中心网络的重塑,在以太网的基础上用NVIDIA BlueField-3 DPU进行网络和应用在主机端的加速,再加上NVIDIA Spectrum-4高性能以太网交换机,以及相应的软件,就可实现集群内的GPU-GPU高效通信,这样就能将成百上千台服务器连成一个大的集群,形成具有上千甚至上万张GPU卡的超大规模数据中心,以适应大模型训练的要求,这就是生成式AI数据中心。
此前,NVIDIA已经推出了NVLink Switch技术,已经发展到第四代,可以实现集群内跨服务器的GPU-GPU通信,最多可连接32台服务器、256张GPU卡,在COMPUTEX 2023上最新发布的DGX GH200超级计算机就是首次采用NVLink Switch技术构建的“巨型GPU”——将256个GH200 Grace Hopper芯片和144TB共享内存连接起来,构建成立了一个256个GPU的的共享内存平台。
NVIDIA正在以色列构建名为Israel-1的生成式AI云超级计算机,Israel-1由256台基于HGX的戴尔服务器构成,每台服务器配备8张GPU,也就是共有2048张GPU卡,同时配备了2560个BlueFiled-3 DPU和80多台Spectrum-4交换机,可达8 EFlop/s的峰值AI性能,将是全球性能排名靠前的AI超级计算机之一。
早在2020年,NVIDIA就完成了对以色列面向服务器和存储提供高性能连接解决方案的供应商迈络思(Mellanox)科技的收购,该收购高达70亿美元,NVIDIA也同时获得了千余名HPC高级人才。当然,Mellanox是坚定的InfiniBand技术的推动者,而InfiniBand是天然通过RDMA技术来进行远程GPU内存直接访问的网络技术,NVIDIA Quantum-2 InfiniBand平台是NVIDIA的另一个网络平台,用于实现更为高端的GPU互连网络。
由Israel-1的配置可见,Israel-1是为了向广大服务器工业界和数据中心产业界验证构建基于高性能以太网的生成式AI数据中心的可行性。
相较于基于现有以太网技术方案的传统数据中心,Israel-1提供了一种全新的设计架构,通过用BlueFiled-3 DPU在主机端加速网络和关键应用,Spectrum-4替换传统交换机实现网络中的高速数据交换和业务性能隔离,LinkX助力于端到端的数据完整性保障,NVIDIA全栈式AI软件提供高效易用的操作平台,满足了生成式AI数据中心对于以太网平台上性能的追求。
简单理解,NVIDIA是在创建一个全新的数据中心市场,一个面向未来的数据中心市场,而不是在进攻传统的数据中心市场,那就是高端AI工厂和豪华版生成式AI数据中心,这就相当于智能手机里的最高配安卓机与最高配苹果机,彻底颠覆了传统手机市场。究竟NVIDIA能否在这个市场上创造辉煌?这还要看生成式AI在多大程度上能够真正成为一个产业,而不是像传统AI那样最终趋于平静。
继高盛的经济学家之后,麦肯锡发布了《生成式AI经济潜力》报告,麦肯锡分析调查了47个国家的850种职业、63个应用示例和2100多项详细的工作活动,基本涵盖全球80%的劳动力。麦肯锡分析的63个生成式AI用例,涵盖16个业务场景,每年可为全球带来2.6-4.4万亿美元经济效益。麦肯锡还发现,当把生成式AI应用在知识工作者的岗位时,每年可为全球增加6.1-7.9万亿美元经济效益,高于业务场景用例。麦肯锡预计,从2023年到2040年,通过生成式AI实现的业务流程自动化,可为全球提供0.2%—3.3%的生产力。
总体来说,生成式AI的商业前景正在迅速形成中,而且能够切实为所有人和所有企业带来生产力和生产效率的提升,而NVIDIA对生成式AI数据中心的“押注”,或许将为全球数据中心产业带来一场新的风暴。