“我们把指南公开的一个最核心目的,就是让大家少走一些弯路,减少开发迭代的成本。让AI芯片流片回来,能够更快地变成系统化的算力,从而让更多的用户享受AI算力。”8月10日,在2023开放计算中国社区技术峰会(OCP China Day 2023)上,浪潮信息服务器产品线总经理赵帅表示。
当天,《开放加速规范AI服务器设计指南》(下称“指南”)作为开放计算产业成果在OCP 2023上正式发布。
图| 《开放加速规范AI服务器设计指南》(来源:资料图)
毋庸置疑,在AIGC领域的发展热潮下,“AI大模型”已经成为2023年的年度热词。当国内外企业先后推出AI大模型的同时,AI算力需求也迎来爆发式增长。以OpenAI发布的GPT-3为例,训练该模型所需的总算力消耗达到3640 PetaFLOP/s-days(PD),需要使用10000块GPU以及花费30天时间,才能完成1750亿参数的训练。由此可见大模型研发是一项复杂的系统工程,其背后既需要海量的数据集,又要有能对千亿级参数大模型进行分布式训练的AI服务器集群。在这种发展态势下,必定需要具备更高扩展性的单机和加速比更高的集群,也会对网络带宽、延迟和卡间互联提出更高的要求。
为进一步破解算力供需难题,支持更高的功耗以及带来更强大的卡间互联能力,目前全球已有上百家公司参与到新型AI芯片的研发中,并已推出诸多非标准PCIe CEM形态的AI加速卡。AI计算芯片的发展,正在朝着多元化的趋势迈进。不过,由于缺乏统一的业界规范,不同厂商推出的新形态AI加速卡也各不相同。这不仅会拉高算力产业的成本,还会降低产品的灵活性,反过来又给AI加速器的研发和应用带来极大阻碍。
在此背景之下,《开放加速规范AI服务器设计指南》应运而生。
《开放加速规范AI服务器设计指南》:四大设计原则和全栈设计方法
指南提出四大设计原则和全栈设计方法,目的在于帮助社区成员更快、更好地开发符合开放加速规范的OAM(OCP Accelerator Module,AI加速卡模块),并提供能够更好匹配应用场景的多元AI算力产品方案。四大设计原则主要包括:应用导向原则、多元开放原则、绿色高效原则、统筹设计原则。
在应用导向上,该指南坚持无论是加速卡设计还是系统设计,都聚焦实际应用场景的原则,在充分考虑业务特点、模型特征和部署环境的基础之上,自上而下地设计和规划开放加速计算系统,避免过度冗余设计,以及因盲目追求性能而带来的时间、空间、资源和成本方面的浪费,以实现高效适配和部署,从而节省产业和社会总成本。
在多元开放上,通过开源和开放的方式,建立可兼容底层硬件差异的异构协同开发平台,在打通人工智能软硬件产业链的同时,为开放加速计算技术和产业生态的壮大作出贡献。
在绿色高效上,加速液冷散热、高效供配电、能效监测、智能运维等技术,专注于开放加速计算节点和集群层面的布局和应用。
在统筹设计上,从规模化算力部署的角度出发,不仅统筹考虑了大模型分布式训练对于计算、网络和存储的需求,还构建了高性能、高速互联和存算平衡的可扩展集群系统,以便满足AI大模型的训练需求。
全栈设计方法,指的是指南给出了详细的开放加速规范AI服务器的设计方法,包括多维协同设计、全面系统测试和性能测评调优。
多维协同设计,是指从节点到集群的软硬全栈参考设计,旨在通过全方位、多维度协同芯片和系统厂商,来尽可能地减少定制开发内容,更好地实现包含计算、存储、网络设备等在内的一体化高集成度算力集群。在这之中,本次指南重点关注AI服务器节点内和集群节点间的互联通信能力的提升。
全面系统测试是指全面梳理结构、散热、压力、稳定性、软件兼容性等方面的测试要点。由于架构复杂度高、芯片种类多、系统功耗大等原因,会提高异构加速计算节点的故障率,因此只有采用更全面、更严苛的测试条件,才能降低系统的故障风险,并提高系统稳定性。
在性能测评调优上,为了确保开放加速规范AI服务器能够给主流大规模模型提供创新应用支撑,指南给出了关于基础性能、互连性能、模型性能测试的要点和指标,以及关于大模型训练和推理性能调优的要点。
浪潮信息AI&HPC产品线高级产品经理张政表示:“(有了指南之后)对于我们的芯片合作伙伴来讲,能够快速开发新型的AI芯片,节省开发周期、减少开发成本、加速产品的升级和迭代;另一方面,也能帮助我们的最终用户按照实际应用场景,选择多元算力解决方案。最终目标是协同产业链上下游的合作伙伴,共同应对当前生成式人工智能时代的算力挑战。”
据了解,本次指南主要面向两类客户。首先,设计原则是基于用户在产业发展或算力应用上遇到的痛点。比如,许多用户在建设新数据中心时,会面临极高的能耗指标要求,所以需要通过先进的液冷等散热技术,将整个数据中心的电能利用效率提升到更高水平,而这也是绿色高效原则的必要性所在。其次,设计方法则更多是面向芯片合作伙伴,能够帮助他们更快地完成产品的开发和迭代,减少试错成本。
如前所述,该指南可以为用户提供多元化的算力产品方案,那对于终端用户来说,其又将获得哪些直观的感受呢?简单来说就是,这让AI芯片可以并行扩展到诸多节点,在生活和工作的应用中也具有较高的稳定性和效率,也让先进算力的成本变得更加普惠和普适。
浪潮信息服务器产品线总经理赵帅表示:“指南实际上是AI加速卡模块整体设计规范进一步的细化诠释,并且是根据我们的实际案例给大家提供了更加明确的标准和测试用例。当我们制定一个更加细化的标准之后,就能帮助企业大大缩短从芯片到系统的时间,并大大减少其开发费用和开发周期,更快地释放算力的价值,这是我们现在设计指南最大的价值。”
降低技术成本,推动技术普及
事实证明,在为产业发展赋能的过程中,实现产业标准的统一开放,能够有效降低技术成本并推动技术普及。而浪潮信息在开放加速方面的优势,主要体现在布局早和拥有充足的产业落地经验这两方面。目前,已有包括浪潮信息、Intel Habana、燧原科技、百度等10+厂商,通过开放、合作为市场推出10余款符合OAM标准的开放加速AI服务器,并在全球范围内开展了实践。举例来说:
2019年,在开放加速器基础设施小组成立之初,浪潮信息作为核心成员主导了AI加速卡基板 OAM-UBB SPEC设计规范的制定,并发布了全球首个通用加速器基板UBB,以给各类AI加速器提供支持。2020年,OAI(OpenAccelerator Infrastructure)小组发布首个AI开放加速计算系统MX1,提供两种互连拓扑,能够帮助用户基于不同的深度学习模型和芯片通信需求,灵活地设计芯片互连方案。2021年,浪潮信息发布首款All in One开放加速计算整机NF5498A5,能在数据中心里实现快速落地和部署。
燧原科技是国内第一家发布并量产OAM的国内AI芯片公司,分别于2019年和2021年基于两代“邃思”训练芯片发布了“云燧T11/T21”OAM模组。
2022年,浪潮信息与其联合发布“钱塘江”智算中心方案,可实现千芯级大规模集群高速互联,单集群200P峰值AI算力,单节点承载8颗400W高性能液冷OAM模组,支持50℃高温水运行,采用先进变频流量系统,通过提高流量变化范围降低能耗, 智算中心整体PUE优于1.1。“钱塘江”方案能有效支撑超千亿参数巨量模型的高效、并行训练。目前,该方案已在大型实验室落地1280卡规模的全液冷AI训练集群。正是在这样一个产业化落地的过程中,让浪潮信息能够将这些经验进行转化为本次指南并推向大众。
未来,浪潮信息在加速多元算力应用的同时,也会让指南更快落地并实现更多价值。同时,其也将进一步提高算力的利用效率,争取在有限的算力条件下,帮助更多企业更快地训练AI大模型。
科技狐 12小时前
科技狐 12小时前