利好AI芯片开发和AIGC应用，《开放加速规范AI服务器设计指南》深度解读

作者：芯东西发布时间：2023-08-11

AI芯片 AIGC

芯东西（公众号：aichip001）

作者 | 程茜

编辑 | 漠影

芯东西8月11日报道，昨天，在第五届OCP China Day（开放计算中国技术峰会）上，面向AIGC产业的《开放加速规范AI服务器设计指南》（下文简称《指南》）正式发布。

这一《指南》为开放加速规范服务器提出了四大设计原则以及全栈设计方法，包括硬件设计参考、管理接口规范和性能测试标准，能帮AI芯片企业显著缩短OAM加速芯片研发和系统适配周期，大幅节省研发投入。

AIGC时代到来，动辄上百亿、上千亿参数规模的大模型使得算力缺口问题被放大，需要处理大量大模型训练任务的AI服务器受关注度也水涨船高。

然而事实是，AI芯片的多元化发展为大模型寻找创新应用提供了机遇，但走向落地，当采用不同技术路线的AI芯片集成到AI计算系统时，企业通常需要投入大量时间、资金来使其AI加速芯片与系统实现高性能的适配，这背后消耗的成本无法估量。

诚然，开放加速计算（OAI）自诞生起就锚定了AI计算基础设施的标准化，但此前界定宽泛、覆盖面广的标准无法真正成体系应用到产业中。因此，这一产业需要的是一个行之有效、落地有声的细化指南。

在OCP China Day期间，芯东西与浪潮信息AI&HPC产品线高级产品经理张政进行了深入交流，找到这则《指南》在AIGC时代下扮演的真实角色。

一、从技术突破到应用落地，海量算力背后的新解法

近日，关于GPU短缺、GPT-5可能需要3-5万张H100 GPU的讨论在社交媒体疯传，AIGC时代的算力已成“兵家必争之地”，再加上其商业化落地、产业化应用提速，AI计算能力这块基石的重要性与日俱增。

因此，为了补上AI算力的缺口，AI芯片公司相继推出各类非标准PCIe CEM的新型态AI加速芯片，越来越多创新技术路径出现，使得AI计算芯片逐渐多元化。随之而来的一大问题就是，不同技术形态的AI加速芯片无法进行标准化快速适配，产业上下游生态面临割裂风险。

解决这一风险的答案可以追溯至2019年，彼时，OCP OAI（Open Accelerator Infrastructure）小组成立，这一小组的研发初衷与当下蓬勃发展的多元算力芯片相对应，并且其关注的为超大规模深度学习训练的AI加速芯片进行形态定义、促进生态建立，在展示开放计算可行性的同时，为规避AI计算芯片多元化趋势背后的风险提供了有效解法。

不同厂商的AI加速芯片在结构、电气特性上存在显著差异，导致不同芯片需要定制化系统硬件平台，OAI小组对AI加速芯片形态进行了定义，通过统一接口、AI加速芯片基板OAI-UBB设计规范、推出基于OAI-UBB1.0规范的开放加速硬件平台，一步步构筑起开放加速计算的生态体系，从而在AIGC时代算力需求狂飙的当下，能为企业提供可匹配其应用场景的AI算力产品方案。

OAI主要通过全球产业链协作的模式，实现产品、规范等共享的同时，推动基础设施创新，在缓解算力供应短缺的同时，进一步加速AIGC时代的技术落地。

参与其中的浪潮信息，在协同合作伙伴完成早期技术验证和经验积累的同时，也发现AI芯片落地过程中还存在众多难以跨越的鸿沟。

因此，浪潮信息基于此前的技术积累发布了这一《指南》，《指南》的最大价值在于，一方面能帮芯片企业快速开发新形态AI芯片，节省开发周期、开发成本，并加速产品的升级和迭代；另一方面，也能让最终客户在实际应用场景中更快享受到多元算力带来的价值。

正如浪潮信息服务器产品线总经理赵帅此前提到的，开放架构的出现就是让领先技术更快从一个行业下沉到千行百业。

二、四大设计原则+全栈设计方法，多元算力芯片落地适配的“说明书”

OAI小组的成立与生态建设为多元算力芯片落地适配搭起了一座桥，但如何让这座桥更坚固、更好走更为重要。

2019年OAI小组制定了一系列开放加速计算的规范，但这些规范在落地的过程中，AI芯片企业依然需要进行大量的定制化工作，多元算力发展面临落地部署慢、研发成本高的难题。因此，这些对开放计算突破AIGC时代算力瓶颈寄予厚望的参与者亟需一份更加细化、完善的“说明书”。

浪潮信息拟定的这一份《指南》就是这样的存在，其制定了AIGC时代AI服务器的设计理论和方法，以便企业能开发出符合开放加速规范的AI服务器，并快速找到能匹配应用场景的最佳AI算力产品方案。

▲浪潮信息发布《开放加速规范AI服务器设计指南》

总的来看，《指南》包括四大设计原则和全栈设计方法。

其中，四大设计原则主要围绕着应用导向、多元开放、绿色高效和统筹设计。张政解释道，这四大原则的设计基于的是其最终客户在产业发展、算力应用方面遇到的痛点。

应用导向指的是，企业在设计AI加速芯片或系统时，以提供“用得了”、“用得起”、“用得好”的解决方案为目标，尽可能避免过渡冗余设计或者追求性能带来的时间、空间、资源浪费；多元开放更注重对不同技术体系的兼容和适配，突破关键技术创新的同时，进一步壮大开放加速计算生态。

绿色高效主要聚焦于液冷散热、高效供配电、智能运维等技术的应用；统筹设计能帮助AI芯片企业在集成大模型分布式训练时，充分考量计算、网络、存储的需求特点。

随之而来的就是，面向AI芯片企业更加具体、全面、细化的设计方法，也就是《指南》中提到的开放加速计算系统全栈设计方法，围绕着多元协同设计、全面系统测试、性能测评调优进行了归纳总结。

具体而言，AIGC计算系统的部署形式是一体化高集成度算力集群，《指南》阐释了从节点到集群的软硬全栈参考设计，在系统厂商和芯片厂商的协作下减少企业的定制开发内容，进一步节省成本。

测试方面主要包含系统层面和应用层面。

全面系统测试中，浪潮信息沿用了一部分AI服务器的测试用例，同时面向OAM服务器，他们将自己此前在创新实践中遇到的问题，一并进行了细化放入《指南》之中，从而增强新研发设备的稳定性和可靠性。

也就是说，要解决在AI系统生产、部署、运行过程中，异构加速计算节点的高故障率的问题，想要保证系统的稳定性，其对应的测试条件及环节要更为严苛。基于此，《指南》对结构、散热、压力、稳定性、软件兼容性等方面的测试要点进行了全面的梳理，以满足AI计算系统部署的要求。

在应用层面，AIGC领域加速计算系统软硬件具备强耦合性，对系统的性能要求更高。浪潮信息将此前在全球权威AI基准评测MLPerf等测试中的问鼎冠军的实战测试优化经验，也呈现在了《指南》中。

例如模型性能测试中，《指南》具体指明了基于ResNet、Bert、Yolo等AI主流模型单机开展测试时推理、训练评测重点关注的性能指标，以及多机环境中重点评测的指标。

这样一来，AI芯片创企既能拥有成熟的系统平台，规避闭源生态风险，还能在这份说明书的基础上，缩短芯片开发落地适配的进程。

三、为AIGC拉满算力引擎，开放计算落地已成趋势

此外，《指南》里的四大设计原则之首就是应用导向，技术落地效果如何与应用成果密不可分，也是评判这一指南的重要因素之一。

目前有燧原科技、英特尔、浪潮信息等10余家OAI小组成员已经陆续开发了10余种符合开放加速规范的产品组合方案并已实现落地应用，越来越多的芯片、算力系统企业已经聚集在这个开放加速的生态之中。

其中，云端AI算力企业燧原科技打造了国内第一个OAM模组，是该公司2019年发布的云燧T11 PoC，2021年发布云燧T21训练OAM模组，这些基于开放加速计算标准构建的高性能人工智能训练加速模组，能在性能、部署、覆盖、运维方面具有较大优势。

随后，去年3月，浪潮信息与其联手打造“钱塘江”智算中心方案，智算中心能支撑超千亿参数规模模型的高效、并行训练。目前，这一方案已在某大型实验室落地1280卡规模的全液冷AI训练集群。

除此以外，还有壁仞科技发布了符合OCP标准的OAM模组壁仞100、英特尔联合浪潮信息推出新一代AI服务器NF5698G7，集成8颗OAM高速互联的Gaudi 2加速器……

无一例外，这些产品已成为开放加速计算产业展现可行性、可用性的有效见证者。

当下，诸多应用成果、符合OAM标准的设备出现，都展示了开放加速计算技术的可行性，并以此辐射出完整的生态体系。

AI加速计算系统的规范体系正在逐步确立、完善，面向AIGC领域的设计指南也更加全面、细化，为AIGC浪潮下算力供需难题提供了有效的解决方案。

下一步AIGC时代会迸发出什么样的创新应用，通往通用人工智能时代还会出现哪些门槛我们尚且无从得知，但可以确定的是，开放加速计算技术有望成为这些玩家去突破AIGC时代算力瓶颈的一条有效路径。

因此走向实际应用的过程中，AIGC应用亟需一套完整的开放加速计算设计指南，以此为桥梁，使得多元算力之道成为破解大模型训练算力难题的有效解法。

结语：补上算力缺口，让AIGC创新应用加速迸发

AIGC的发展需要大量的计算资源，因此对算力的需求将会迎来系统级变化。当下，其规模化应用的步伐已经加快，因此，如何低成本补上算力缺口成为难题。开放计算这一新技术的落地与技术路线，都说明了其与AIGC时代这一难题的适配性。

作为开放加速计算的重要参与者，浪潮信息正铆足全力保障AIGC时代的多元算力供应，这背后有两重身份支撑，首先它是国内率先布局开放加速计算的玩家，同时它也是国内AI服务器龙头企业，在产品落地应用中积累了众多有效经验。

张政谈道，面向AIGC领域的规划，短期内，浪潮信息将继续在软硬件布局，硬件中继续为合作伙伴提供先进且强大的开放加速硬件平台，软件、算法层面将基于资源管理平台实现对多元算力的高效管理和调度，目前，这一管理平台已经可以适配业内30多种算力芯片。

长期来看，浪潮信息将继续围绕大模型、智算中心、AI算力服务等场景的多元算力产业化应用实践进一步探索。

展望未来，在成本可控、能灵活应用扩展的基础上，AIGC时代的众多参与者就可以全力挖掘创新应用，找到大模型狂飙背后的落地破局入口。

利好AI芯片开发和AIGC应用，《开放加速规范AI服务器设计指南》深度解读

推荐体验

相关资讯

应对AIGC算力挑战，《开放加速规范AI服务器设计指南》正式发布

《开放加速规范AI服务器设计指南》发布，应对生成式AI算力挑战

AIGC行业深度报告：ChatGPT，加速计算服务器时代到来

基于chatGPT应用开发，搭建chatGPT服务器，应用管理开发

AIGC行业深度报告（5）：ChatGPT，加速计算服务器时代到来（附下载）

近期资讯

学习繁体字“机”的书写与文化意义探讨之旅

如何有效清理电脑磁盘空间，避免“磁盘已满”烦恼

崎伟科技取得一种防触电充电桩专利，实现充电头干燥

如何通过文件夹整理技巧提升生活和工作的效率与有序性

飞腾信息技术申请内存刷新方法等专利，能够降低系统功耗

如何应对忘记手机解锁图案的烦恼与解决方法分享

美光科技申请在行锤击缓解电路上检测及缓解攻击专利，检测缓解存储器瀑布攻击

拉姆伯斯公司申请用于存储器模块的动态随机存取存储器专利，实现存储器模块数据访问定时控制

如何轻松开启笔记本电脑摄像头及常见问题解决方法

苏州工业园区和顺电气取得充电模块专利，便于人员对电芯进行安装的同时，也有利于缩小整体的体积

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响