芯东西(公众号:aichip001)
作者 | 程茜
编辑 | 漠影
芯东西8月11日报道,昨天,在第五届OCP China Day(开放计算中国技术峰会)上,面向AIGC产业的《开放加速规范AI服务器设计指南》(下文简称《指南》)正式发布。
这一《指南》为开放加速规范服务器提出了四大设计原则以及全栈设计方法,包括硬件设计参考、管理接口规范和性能测试标准,能帮AI芯片企业显著缩短OAM加速芯片研发和系统适配周期,大幅节省研发投入。
AIGC时代到来,动辄上百亿、上千亿参数规模的大模型使得算力缺口问题被放大,需要处理大量大模型训练任务的AI服务器受关注度也水涨船高。
然而事实是,AI芯片的多元化发展为大模型寻找创新应用提供了机遇,但走向落地,当采用不同技术路线的AI芯片集成到AI计算系统时,企业通常需要投入大量时间、资金来使其AI加速芯片与系统实现高性能的适配,这背后消耗的成本无法估量。
诚然,开放加速计算(OAI)自诞生起就锚定了AI计算基础设施的标准化,但此前界定宽泛、覆盖面广的标准无法真正成体系应用到产业中。因此,这一产业需要的是一个行之有效、落地有声的细化指南。
在OCP China Day期间,芯东西与浪潮信息AI&HPC产品线高级产品经理张政进行了深入交流,找到这则《指南》在AIGC时代下扮演的真实角色。
一、从技术突破到应用落地,海量算力背后的新解法
近日,关于GPU短缺、GPT-5可能需要3-5万张H100 GPU的讨论在社交媒体疯传,AIGC时代的算力已成“兵家必争之地”,再加上其商业化落地、产业化应用提速,AI计算能力这块基石的重要性与日俱增。
因此,为了补上AI算力的缺口,AI芯片公司相继推出各类非标准PCIe CEM的新型态AI加速芯片,越来越多创新技术路径出现,使得AI计算芯片逐渐多元化。随之而来的一大问题就是,不同技术形态的AI加速芯片无法进行标准化快速适配,产业上下游生态面临割裂风险。
解决这一风险的答案可以追溯至2019年,彼时,OCP OAI(Open Accelerator Infrastructure)小组成立,这一小组的研发初衷与当下蓬勃发展的多元算力芯片相对应,并且其关注的为超大规模深度学习训练的AI加速芯片进行形态定义、促进生态建立,在展示开放计算可行性的同时,为规避AI计算芯片多元化趋势背后的风险提供了有效解法。
不同厂商的AI加速芯片在结构、电气特性上存在显著差异,导致不同芯片需要定制化系统硬件平台,OAI小组对AI加速芯片形态进行了定义,通过统一接口、AI加速芯片基板OAI-UBB设计规范、推出基于OAI-UBB1.0规范的开放加速硬件平台,一步步构筑起开放加速计算的生态体系,从而在AIGC时代算力需求狂飙的当下,能为企业提供可匹配其应用场景的AI算力产品方案。
OAI主要通过全球产业链协作的模式,实现产品、规范等共享的同时,推动基础设施创新,在缓解算力供应短缺的同时,进一步加速AIGC时代的技术落地。
参与其中的浪潮信息,在协同合作伙伴完成早期技术验证和经验积累的同时,也发现AI芯片落地过程中还存在众多难以跨越的鸿沟。
因此,浪潮信息基于此前的技术积累发布了这一《指南》,《指南》的最大价值在于,一方面能帮芯片企业快速开发新形态AI芯片,节省开发周期、开发成本,并加速产品的升级和迭代;另一方面,也能让最终客户在实际应用场景中更快享受到多元算力带来的价值。
正如浪潮信息服务器产品线总经理赵帅此前提到的,开放架构的出现就是让领先技术更快从一个行业下沉到千行百业。
二、四大设计原则+全栈设计方法,多元算力芯片落地适配的“说明书”
OAI小组的成立与生态建设为多元算力芯片落地适配搭起了一座桥,但如何让这座桥更坚固、更好走更为重要。
2019年OAI小组制定了一系列开放加速计算的规范,但这些规范在落地的过程中,AI芯片企业依然需要进行大量的定制化工作,多元算力发展面临落地部署慢、研发成本高的难题。因此,这些对开放计算突破AIGC时代算力瓶颈寄予厚望的参与者亟需一份更加细化、完善的“说明书”。
浪潮信息拟定的这一份《指南》就是这样的存在,其制定了AIGC时代AI服务器的设计理论和方法,以便企业能开发出符合开放加速规范的AI服务器,并快速找到能匹配应用场景的最佳AI算力产品方案。
▲浪潮信息发布《开放加速规范AI服务器设计指南》
总的来看,《指南》包括四大设计原则和全栈设计方法。
其中,四大设计原则主要围绕着应用导向、多元开放、绿色高效和统筹设计。张政解释道,这四大原则的设计基于的是其最终客户在产业发展、算力应用方面遇到的痛点。
应用导向指的是,企业在设计AI加速芯片或系统时,以提供“用得了”、“用得起”、“用得好”的解决方案为目标,尽可能避免过渡冗余设计或者追求性能带来的时间、空间、资源浪费;多元开放更注重对不同技术体系的兼容和适配,突破关键技术创新的同时,进一步壮大开放加速计算生态。
绿色高效主要聚焦于液冷散热、高效供配电、智能运维等技术的应用;统筹设计能帮助AI芯片企业在集成大模型分布式训练时,充分考量计算、网络、存储的需求特点。
随之而来的就是,面向AI芯片企业更加具体、全面、细化的设计方法,也就是《指南》中提到的开放加速计算系统全栈设计方法,围绕着多元协同设计、全面系统测试、性能测评调优进行了归纳总结。
具体而言,AIGC计算系统的部署形式是一体化高集成度算力集群,《指南》阐释了从节点到集群的软硬全栈参考设计,在系统厂商和芯片厂商的协作下减少企业的定制开发内容,进一步节省成本。
测试方面主要包含系统层面和应用层面。
全面系统测试中,浪潮信息沿用了一部分AI服务器的测试用例,同时面向OAM服务器,他们将自己此前在创新实践中遇到的问题,一并进行了细化放入《指南》之中,从而增强新研发设备的稳定性和可靠性。
也就是说,要解决在AI系统生产、部署、运行过程中,异构加速计算节点的高故障率的问题,想要保证系统的稳定性,其对应的测试条件及环节要更为严苛。基于此,《指南》对结构、散热、压力、稳定性、软件兼容性等方面的测试要点进行了全面的梳理,以满足AI计算系统部署的要求。
在应用层面,AIGC领域加速计算系统软硬件具备强耦合性,对系统的性能要求更高。浪潮信息将此前在全球权威AI基准评测MLPerf等测试中的问鼎冠军的实战测试优化经验,也呈现在了《指南》中。
例如模型性能测试中,《指南》具体指明了基于ResNet、Bert、Yolo等AI主流模型单机开展测试时推理、训练评测重点关注的性能指标,以及多机环境中重点评测的指标。
这样一来,AI芯片创企既能拥有成熟的系统平台,规避闭源生态风险,还能在这份说明书的基础上,缩短芯片开发落地适配的进程。
三、为AIGC拉满算力引擎,开放计算落地已成趋势
此外,《指南》里的四大设计原则之首就是应用导向,技术落地效果如何与应用成果密不可分,也是评判这一指南的重要因素之一。
目前有燧原科技、英特尔、浪潮信息等10余家OAI小组成员已经陆续开发了10余种符合开放加速规范的产品组合方案并已实现落地应用,越来越多的芯片、算力系统企业已经聚集在这个开放加速的生态之中。
其中,云端AI算力企业燧原科技打造了国内第一个OAM模组,是该公司2019年发布的云燧T11 PoC,2021年发布云燧T21训练OAM模组,这些基于开放加速计算标准构建的高性能人工智能训练加速模组,能在性能、部署、覆盖、运维方面具有较大优势。
随后,去年3月,浪潮信息与其联手打造“钱塘江”智算中心方案,智算中心能支撑超千亿参数规模模型的高效、并行训练。目前,这一方案已在某大型实验室落地1280卡规模的全液冷AI训练集群。
除此以外,还有壁仞科技发布了符合OCP标准的OAM模组壁仞100、英特尔联合浪潮信息推出新一代AI服务器NF5698G7,集成8颗OAM高速互联的Gaudi 2加速器……
无一例外,这些产品已成为开放加速计算产业展现可行性、可用性的有效见证者。
当下,诸多应用成果、符合OAM标准的设备出现,都展示了开放加速计算技术的可行性,并以此辐射出完整的生态体系。
AI加速计算系统的规范体系正在逐步确立、完善,面向AIGC领域的设计指南也更加全面、细化,为AIGC浪潮下算力供需难题提供了有效的解决方案。
下一步AIGC时代会迸发出什么样的创新应用,通往通用人工智能时代还会出现哪些门槛我们尚且无从得知,但可以确定的是,开放加速计算技术有望成为这些玩家去突破AIGC时代算力瓶颈的一条有效路径。
因此走向实际应用的过程中,AIGC应用亟需一套完整的开放加速计算设计指南,以此为桥梁,使得多元算力之道成为破解大模型训练算力难题的有效解法。
结语:补上算力缺口,让AIGC创新应用加速迸发
AIGC的发展需要大量的计算资源,因此对算力的需求将会迎来系统级变化。当下,其规模化应用的步伐已经加快,因此,如何低成本补上算力缺口成为难题。开放计算这一新技术的落地与技术路线,都说明了其与AIGC时代这一难题的适配性。
作为开放加速计算的重要参与者,浪潮信息正铆足全力保障AIGC时代的多元算力供应,这背后有两重身份支撑,首先它是国内率先布局开放加速计算的玩家,同时它也是国内AI服务器龙头企业,在产品落地应用中积累了众多有效经验。
张政谈道,面向AIGC领域的规划,短期内,浪潮信息将继续在软硬件布局,硬件中继续为合作伙伴提供先进且强大的开放加速硬件平台,软件、算法层面将基于资源管理平台实现对多元算力的高效管理和调度,目前,这一管理平台已经可以适配业内30多种算力芯片。
长期来看,浪潮信息将继续围绕大模型、智算中心、AI算力服务等场景的多元算力产业化应用实践进一步探索。
展望未来,在成本可控、能灵活应用扩展的基础上,AIGC时代的众多参与者就可以全力挖掘创新应用,找到大模型狂飙背后的落地破局入口。