众所周知,AIGC时代,算力需求爆发式增长,而开放加速计算(OAI)硬件架构正是为超大规模深度神经网络模型并行计算而生,天然适用于AIGC大模型训练,将为AIGC提供有力的创新动力。而随着日前举行的OCP ChinaDay大会上,业界首个面向AIGC的《开放加速规范AI服务器设计指南》(以下简称《指南》)正式发布,势必会有效加速算力产业多样化的转型与发展,帮助AIGC时代的AI计算产业跨越“创新”鸿沟。
生成式AI计算需求增长,算力多样化转型带来新挑战
随着AI的发展,IDC预测,全球AI计算市场规模将从2022年的195.0亿美元增长到2026年的346.6亿美元,其中生成式AI计算市场规模将从2022年的8.2亿美元增长到2026年的109.9亿美元。生成式AI计算占整体AI计算市场的比例将从4.2%增长到31.7%。
随之而来的是这种生成式AI算力需求的增长推动算力产业转型升级,即企业需要为人工智能、机器学习和深度学习建设全新的IT基础架构,正由CPU密集型转向搭载GPU、FPGA、ASIC芯片的加速计算密集型,且越来越多地使用搭载GPU、FPGA、ASIC等加速卡的服务器,所以,异构计算将成为未来计算的主流。
其实,Henessy和Patterson在几年前的《计算机架构的新黄金时代》中就引入了特定领域体系架构(Domain Specific Architectures,DSAs)的概念,即随着通用算力技术的演进逐渐减缓,针对特定问题或领域定制计算架构变得愈发重要。基于DSAs思想设计的AI计算芯片,在特定人工智能工作负载下展现出超越通用芯片的处理能力,这极大地推动了多元化人工智能芯片的发展,为产业智能化的加速提供了关键基础和更广泛的选择。
正是在上述背景下,目前全球已有上百家公司投入新型AI加速芯片的开发,AI计算芯片多元化转型趋势凸显,但同时也出现了新的挑战。
主要表现在,单机具有更高的扩展性、集群具有更高的加速比,对卡间互联、网络带宽和延迟提出了更高的要求。例如加速卡间通信的数据量越来越多,仅仅通过传统的PCIe P2P通信已经无法满足超大规模深度学习模型的要求。同时,为了提升AI加速卡的算力,单张AI加速卡的功耗逐代显著提升。
为了解决这些问题,芯片公司相继推出了各自非标准PCIe CEM形态的AI加速卡,这些新形态的AI加速卡支持更高的功耗和更强大的卡间互联能力。但随之而来的是,各厂商采用不同技术路线,产业面临硬件体系孤岛和生态割裂问题,即由于缺乏统一的业界规范,不同AI芯片厂商的新形态AI加速卡,无论在结构上还是电气特性上都各不相同,导致不同厂商AI系统硬件平台方案的定制化,带来算力产业发展高成本和低灵活性等问题。
而业内知道,从芯片到计算系统,需要完成体系结构、信号完整性、散热、可靠性等大量系统性设计工作,涉及到材料、热力学、电池技术、流体力学、化学等众多学科随着系统能耗、总线速率、电流密度等指标随业务需求持续攀升,给人工智能计算系统设计带来严峻挑战。
此外,由于AI计算系统的技术挑战和设计复杂性,将专有AI芯片集成到系统中,通常既耗时,又需要不菲的系统开发费用,这同样严重阻碍了AI加速器的研发创新和应用推广。
那么问题来了,业内何以应对上述的新挑战?
从OCP到OAM,开放计算架构适合AIGC天然属性初显
众所周知,OCP是全球基础硬件技术领域覆盖面最广、最有影响力的开源组织,以其为代表的开放计算项目,创造出一种全新的、全球化的协作模式,通过消除技术壁垒,使得硬件创新的速度远超过去,加速技术创新迭代。
而面对AI的发展大势,2019年OCP成立OAI(Open Accelerator Infrastructure)小组,对更适合超大规模深度学习训练的AI加速卡形态进行了定义,以解决多元AI加速卡形态和接口不统一的问题,并由此开启了我们前述AI加速卡在AIGC应用中的挑战的应对之道。
需要说明的是,作为OAI项目中最核心的OAM(OCP Accelerator Module)—AI加速卡模块,以标准化和互操作性促进了OAI生态的建立。同年,OCP发布了AI加速卡基板 OAM-UBB SPEC设计规范,又大幅提升了各类符合OAM规范的AI加速芯片的兼容性。
之后的2020年,全球首个OAI基准的计算系统—MX1发布,采用了高带宽、双供电等技术,尤其是两种互联拓扑的采用,有利于用户针对不同深度学习模型,并根据芯片通信的需求灵活设计芯片互联方案。
2021年,浪潮信息发布首款All in One开放加速计算整机NF5498A5,卡间互联带宽达PCIe 4.0通讯速率的9倍以上,跨节点高速直连带宽448 GB/s,支持构建千卡级大模型并行训练集群。
《指南》拾遗补缺,加速开放计算向产业落地之道
由模块到基板,由系统到集群,从上述事实我们不难发现,开放加速计算的硬件架构正是为超大规模深度神经网络模型并行计算而生,天然适用于AIGC大模型训练。但实际的情况是,在当前开放计算技术推向产业落地的过程中,依然存在大量的定制化工作以及现有OAI标准未能完全覆盖的领域。
因此,浪潮信息基于丰富的开放加速计算工程实践和产品历程,面向实际AIGC计算场景,进一步发展和完善了开放加速规范计算系统的理论体系和设计方法,提出了面向AIGC的《开放加速规范AI服务器设计指南》。
纵观《指南》,我们看到,其进一步发展和完善了开放加速规范AI服务器的设计理论和设计方法,提出了四大设计原则、全栈设计方法,包括硬件设计参考、管理接口规范和性能测试标准,旨在帮助社区成员更快更好地开发AI加速卡并适配开放加速AI服务器,应对生成式AI的算力挑战。
在该《指南》中,开放加速规范AI服务器设计应遵循四大设计原则,即应用导向、多元开放、绿色高效、统筹设计。在此基础上,应采用多维协同设计、全面系统测试和性能测评调优的设计方法,以提高适配部署效率、系统稳定性、系统可用性。
那么问题来了,该《指南》为何要制定这些设计原则和设计方法?
以设计原则中的应用导向为例,无论是加速卡的设计,还是系统的设计,都要聚焦实际应用场景,在充分考虑业务特点、模型特征、部署环境的基础上,以提供“用的了”、“用的起”、“用的好”的解决方案为目标,自上而下完成开放加速计算系统的设计规划,避免过度冗余设计和一味追求性能带来的时间、空间、资源和成本的浪费,最终实现高效适配、高效部署、节省产业和社会总成本。浪潮信息服务器产品线总经理赵帅如此解释。
又如设计原则中的绿色高效,随着AI训练芯片功耗的不断增长,用于AI训练的机器单机柜功率密度将大幅增加,传统的风冷模式已无法满足制冷散热需求和PUE指标要求,需要加速液冷散热、高效供配电、能效监测、智能运维等技术在开放加速计算节点和集群层面的全面布局和应用。
对此,赵帅进一步解释称,我们看到现在很多的客户,对于新的数据中心建设都有非常高的能耗指标要求,所以需要通过先进的液冷,或者是其他的一些散热技术,以使整个数据中心的PUE能到一个更高的水平,所以我们在设计原则方面更多来自于终端客户的痛点和需求。
至于设计方法方面,赵帅告诉《班门弄斧》,主要是基于前期去跟一些OAM在做适配过程当中发现的一些问题,以及在性能测试当中我们自己积累的一些经验,把这些东西固化,形成了更加具体和深入的规范,帮助芯片厂商减少试错成本,基于指南,能更快地去完成产品的开发和迭代。
以其中的全面系统测试为例,由于架构复杂度高、芯片种类多、高速信号多、系统功耗大等特点导致异构加速计算节点通常面临故障率高的问题。因此,需要更加全面、严苛的测试条件才能够最大程度降低系统生产、部署、运行过程中的问题和故障风险,提高系统稳定性,减少断点对训练持续性的影响。为此,《指南》对结构、散热、压力、稳定性、软件兼容性等方面的测试要点进行了全面梳理。
由此看,《指南》从最终客户和AI芯片合作伙伴的角度对于现有的OAI标准做了拾遗补缺,更细化、更具体、更完善。那么接下来的问题是,《指南》未来的前景如何?
产品与解决方案筑基,开放加速生态未来可期
说到《指南》未来的前景,在我们看来,所谓实践出真知,用产品和解决方案说话才是硬道理。
据我们了解,目前有燧原科技、英特尔、浪潮信息等10余家OAI小组成员已经陆续开发了10余种符合开放加速规范的产品组合方案并已实现落地应用,越来越多的芯片、算力系统企业已经聚集在这个开放加速的生态之中。
例如早在2019年燧原科技发布第一代“邃思”芯片的同时发布了基于这款芯片云燧T11 PoC,这是国内第一个OAM模组。2021年燧原科技发布第二代“邃思2.0”芯片,以及基于这款芯片打造的一组云端AI训练产品:云燧T20训练加速卡,云燧T21训练OAM模组。
2022年3月,浪潮信息与其联合发布了“钱塘江”智算中心方案。该方案具有绿色低碳的独特优势,创新研发全球首台开放加速模组液冷计算平台,率先实现单节点8颗400W高性能AI芯片液冷散热,支持50℃中高温水运行,采用先进变频流量系统,大幅提高流量变化范围、降低能耗,智算中心整体PUE低于1.1。单集群即可提供超过200P峰值AI算力(TF32),支持超强扩展能力,采用高带宽、全互联拓扑架构,跨节点互联带宽高达448GB/s,结合GCU-LARE 2.0多芯互联技术,可实现千芯级大规模集群高速互联,具备优异的线性加速比,支撑超千亿参数巨量模型的高效、并行训练。目前,该方案已在大型实验室落地1280卡规模的全液冷AI训练集群。
同年8月,壁仞科技发布首款通用GPU芯片BR100,以及符合OCP标准的OAM模组壁砺100,同时支持最高8卡全互连,最大板级功耗可达550W。同时,壁仞科技与浪潮信息共同发布基于8个壁砺100 OAM模组打造的海玄OAM服务器,其通过全互联的模式,可以提供高达8PFLOPS的浮点峰值算力,支持PCIe Gen 5的CPU,并结合CXL互连协议,将CPU-GPU的访存和数据搬移效率做到了极致。
而在今年刚刚过去的7月,英特尔正式于中国市场推出第二代Gaudi深度学习加速器——Habana® Gaudi®2,并联合浪潮信息发布面向生成式AI领域创新开发的新一代 AI 服务器 NF5698G7,其在6U空间支持8颗基于开放加速模组OAM高速互联的Gaudi2 AI加速器,每颗Gaudi2芯片配置96GB HBM高速内存,共提供2.1Tbps的P2P互联带宽,支持全互联拓扑,满足大模型训练张量并行的通信需求,搭载的2颗第四代至强处理器,支持AMX/DSA等AI加速引擎。
不知业内看到上述作何感想?我们看到的是从芯片,系统、集群,再到智算中心,基于OAM开放加速计算产品和解决方案不断的精进和拓展,而这势必使得基于《指南》的开放加速计算生态未来可期,AIGC应用可待。
写在最后:不知是巧合,还是其他原因,《指南》发布之际,据相关媒体报道,百度、字节跳动、腾讯和阿里巴巴等互联网企业正争相订购英伟达的高性能GPU芯片,即便是在加价的情况下,诸多企业也是“一芯难求”,由此看,单一GPU算力供需失衡相当严重。
与之形成鲜明对比的是,我们又看到许多AI芯片企业,尤其是国内AI芯片企业面临缺乏系统平台和标准支撑、导致适配难,开发成本高企,无法让其创新产品更加快速、高效地部署和落地等窘境。
所幸的是,通过《指南》的发布,我们看到,开放加速规范的AI服务器可为AI芯片创新提供成熟的系统平台支撑,帮助AI芯片厂商聚焦于芯片创新研发,实现更科学合理的产业分工,避免封闭技术生态存在的单点单线风险,推动智算产业生态健康发展;另一方面,基于开放加速工程实践和成熟计算平台总结的设计指南,可加速有竞争力的AI芯片的创新研发和落地部署,有效缩短开发适配周期,节省研发投入,为用户提供可以用来支撑AIGC大模型训练的多元算力解决方案,以多元算力之道破解当下AI算力供需难题。