浪潮信息AI存储解决方案性能极致突破海量数据存力瓶颈

作者：接班人发布时间：2023-11-19

作为老牌的分布式存储系统方案提供商，浪潮信息在生成式AI存储解决方案的创新开发上别具匠心。过去，行内普遍认为没有单一选项可以满足人工智能、机器学习和分析的所有存储需求，然而，浪潮信息率先打破了这个困局。

浪潮信息生成式AI存储解决方案

浪潮信息生成式AI存储解决方案用一套AS13000融合存储支撑生成式AI的全阶段应用，提供全闪、混闪、带库、光盘四种介质，支持文件、对象、大数据、视频、块协议，可满足大容量、多协议共享，百万以上IOPS，100GB以上带宽，冷数据的长期保存和归档。结合AIGC数据处理的五个阶段：数据采集、数据准备、数据训练、数据推理和数据归档，由同一套存储提供端到端的数据流支持流程，满足面向文本、音频、图像、视频、代码以及多模态和全模态的模型需求。

浪潮信息生成式AI存储解决方案拥有极致融合、极致性能、极致节能，和热温冷冰四级全生命周期存储管理四大特点，助力AIGC突破海量数据存力瓶颈，加速释放数据的AI价值：

极致融合。为了应对不同模态的多样性需求，浪潮信息提出协议融合设计理念，一个集群内支持多个存储池，一个存储池内支持文本、图片、音频、视频等多种类型数据存储，一份数据又可以被前端不同业务场景以文件、对象、大数据以及视频的存储方式进行并行访问。用一套存储实现多模态场景应用，应用间数据实现实时共享，同时节省了大量的存储空间。

极致性能。AIGC场景数据类型多样化，文件大小不一数量多，且读写频繁，对存储系统的100GB级带宽、100万级IOPS需求成了常态。浪潮信息在软件方面，通过数控分离架构减少东西向数据量的转发，通过GDS、RMDA技术缩短I/O路径，通过SPDK、缓存零拷贝技术减少I/O路径上的数据拷贝，以及基于自研NVMe SSD开发的盘控协同技术，减少I/O访问SSD盘的次数，使存储性能得到进一步释放。在硬件方面，优化IO路径通道，均衡IO路径，最大化发挥硬件性能，全闪单节点带宽超过50GB/s，IOPS超过50万；创新性的引入双控全闪节点，带宽超过100GB/s，IOPS超过100万，真正使系统达到了TB级带宽、千万级IOPS、EB级带宽。

极致节能。浪潮信息最新发布的G7硬件平台，存储专用的液冷服务器涵盖性能型和容量型，且均采用模块化冷板组件设计模式。在系统方案层面，浪潮信息具有风液式，液液式等完善的端到端解决方案，能够为用户全方位打造液冷数据中心交钥匙工程，并且完成了业界首次液冷整机柜批量交付，实现PUE<1.1。

端到端的全生命周期管理。浪潮生成式AI存储方案采用闪存、磁盘、磁带、光盘四种介质提供热温冷冰四种存储资源，且实现了资源的互通和数据全生命周期的管理。基于数据的热度识别，自动释放在线存储空间，可以将海量数据自动归档到光盘库，降低长期存储成本；实现冷数据的分钟级快速回调，满足0~4级应用的存储需求。四种介质、四类存储节点，提供热温冷冰自动流转，满足各类应用的灵活配置需求，通过性能型、均衡型、容量型、高密容量型四种机型的按需灵活配置，进一步降低整体投入。

浪潮信息自研的源大模型

目前，浪潮信息生成式AI存储解决方案已经在全球领先的中文语言大模型"源1.0"中成功落地。“源”中文语言大模型有近2500亿个模型参数，算力消耗达4000+PetaFlop/s-day，底层采用AS13000并行存储支撑，原始数据、经过粗筛和精筛的处理后得到高质量中文数据都集中在AS13000上。

模型训练过程中对存储的挑战主要有对小文件并发的性能，和训练过程中要求快速保存Checkpoint存档文件的高速宽写入要求。AS13000采用最新硬件平台，搭载全闪SSD和高速IB网络，支撑源的训练过程高效完成。

据测算， GPT-3使用10000块GPU、花了30天训练完成1750亿参数，“源1.0”在2128个GPU集群上跑了16天完成了训练，源1.0的算力效率达到44.8%，远超MT-NLG与GPT-3等国际知名模型，其中存储的极致性能功不可没。

在AIGC时代下，浪潮信息作为AIGC大模型创新的领航者，始终秉承“新存储之道”的理念，它所打造的平台型存储产品高效而可靠，是企业应对智能时代、AIGC时代存储挑战的理想选择。