衡量一股科技潮流的影响力与持续性,最好的标尺即看它是否具备改天换地的能力——“天”是指驱动千行百业转型的纷繁应用,“地”就是ICT基础设施构筑的底座支撑。
从这个意义上讲,互联网、云计算都符合“大潮流”的标准,而今年初崭露头角的AIGC也具备“重新定义一切”的潜能。如果说人工智能通用化带来的应用端爆发尚需时日,那么由此引发的计算、存储、网络等ICT基础设施变革,则已如火如荼地展开。
罗马不是一天建成的,基座的量变与质变也并非均衡地演进。与算力的快马加鞭相比,存力的脚步似乎慢了一些。相关统计显示:以存储与服务器之间的规模配比来看,美国和欧洲的比例分别为1:1.2、1:1.5,而中国的比例约为1:3.3,这与AIGC时代数据量价齐升所要求的存算比相距甚远。
值得关注的是,数据是AIGC大模型应用的核心,决定了机器学习算法的性能、泛化能力和应用效果,随着参数量和数据量的极速膨胀,数据“存、管、用、传”的能力亟待提升。而数据中心是ICT基础设施中的核心角色,也是提升存算比的主要抓手——从数据容量、带宽、访问频率以及成本等因素综合考量,未来数据中心需要形成算力、闪存和混闪的1:1:1“黄金比例”,以满足AIGC不断进化的诉求。
就像某品牌食用油耗时数年倡导“1:1:1更健康”一样,存力与算力的再平衡也不可能一蹴而就。就整体存储市场而言,蛋糕变大与竞争加剧是一枚硬币的两面;而对国内存储厂商来说,抓住存力后发先至的发展契机,借助产品和平台创新实现后来居上,才是更值得期待的图景。
作为国内存储领域的翘楚,浪潮信息近日发布高性能分布式存储AS15000G7平台,兼顾容量型、性能型和通用型,以极致性能、极致管理、极致融合、极致高效的产品能力,助力AIGC突破海量数据存力瓶颈,加速释放数据要素价值。
“只有偏执狂才能生存”的时光并未远去,对“极致”的全方位追求也许正是存储厂商在AIGC时代谋求突围的王道。
根据Gartner发布的报告,2023年会有20%的内容由生成式AI创建,到2025 年AIGC产生的数据将占所有数据的10%;另有数据表明,到2032年,AIGC市场规模将达2000亿美元,占人工智能支出总额约20%。
从最早的PGC(专业生产内容)到后来的UGC(用户生产内容),再到当下的AIGC,信息和数据生产方式的变化对ICT底座提出更新迭代的要求。浪潮信息存储产品线副总经理刘希猛认为,以存储为代表的数据基础设施,需要应对来自数据全生命周期的多维度挑战。
首当其冲的是数据归集与准备。无论是文本型、图片型还是视频型数据,这些多元异构海量数据都要经过预处理才能用于大模型训练。在数据的搬运和加载过程中,存储系统的多协议互访互通至关重要,否则难以达成预期目标。
其次,数据训练环节也面临难题。大模型训练通常采用将数据加载到成百上千个节点内存中并行计算的方法,会频繁从数据集取Token,而实时高并发需要极低的延迟,对数据存储系统的吞吐性能提出严苛要求。
再次,数据推理不能“掉链子”。机器学习大模型要求高频的参数调优,当服务器或网络故障造成节点中断时,数据存储应提供高带宽,确保Checkpoint机制可以快速访问数据,使数据能重新加载,训练得以快速恢复。
最后,数据归档要做好“收官”。大模型快速迭代的进程中,会产生大量训练数据和人工标注数据。如何对这些资产进行高效存储与管理,且实现投资回报比最大化,成为数据基础设施厂商必须跨越的障碍。
面对AIGC时代新的机遇与挑战,各大存储厂商纷纷采取行动,有的重点升级硬件平台,也有的在软件层面发力,缩短GPU到存储的IO路径,最大限度降低访问延迟。
不难看出,高性能、高可用是存储厂商竞逐AIGC的战略高地。刘希猛认为,“大家目前都在同一起跑线,就看谁能先认清市场,把握需求,快速迭代产品”。依托源大模型和算力平台的先天优势,浪潮存储与源和AIStation的研发团队共同打造AIGC存储解决方案,有望在新一轮竞争中占得先机。
事实上,从2017年起,浪潮存储就全面转向自主研发,从架构到硬件、软件实现了整体性的跃迁。AIGC是检验过往积累的最佳试金石,浪潮存储已做好充分的准备。据浪潮分布式存储产品线总经理姜乐果透露,“在深耕自研的基础上,强大的协同能力也是我们的优势。一般厂商很难搭建庞大的集群来测试新品,浪潮存储则可借助源大模型不断优化产品性能,跟上AIGC奔跑的步伐”。
经过日夜兼程的研发测试,秉承“存储即平台”的产品理念,高性能分布式存储AS15000G7平台重磅发布,助力AIGC在金融、教育、医疗等行业突破存力瓶颈,以全方位的“极致”路线支撑用户的数智化转型。
极致性能是加速AI大模型训练的核心基石。AS15000G7采用高吞吐并行存储系统,基于GDS、RDMA技术缩短I/O路径;通过智能元数据管理,显著提升数据访问和检索速度;借助独有的智能网络优化技术,可缩短时延50%以上,小文件级传输时延降至毫秒级。
极致管理是AI训练全流程透明可控的重要保障。AS15000G7可同时搭载AIStation调度和InView数据管理平台,对AI服务器、网络、存储设备进行监控和管理,实现对数据全作业流程的透明可控,HDD/SSD寿命和故障预测功能在14天内的准确率高于95%。
极致融合是海纳多元异构巨量数据的有效路径。AS15000G7打造业界首个多合一极致融合架构,以文件、对象、大数据以及视频的存储方式进行并行访问,多协议实时互访互通和系统扁平扩展,且数据访问过程中保持语义一致、性能无损,从而实现高效共享。
极致高效是提升用户IT设备投资回报比的有力武器。基于自动化的数据分层和迁移,AS15000G7在确保应用安全透明的前提下,通过闪存、磁盘、磁带、光盘的性能型、均衡型、容量型、高密容量型四种机型按需灵活配置,显著改善用户投入回报比。
毋庸置疑,大模型是AIGC时代军备竞赛的焦点,也是检验存储产品成色的舞台。据统计,国内已发布的生成式AI模型超过100个,存储平台无疑是支撑其大展身手的幕后英雄。
以浪潮信息自研的源大模型为例:“源”中文语言大模型有近2500亿个模型参数,其以AS15000G7为底层支撑,原始数据经粗筛和精筛处理后得到的高质量中文数据,都集中在分布式融合存储上。
从具体的场景来看,模型训练过程中对存储的考验,主要包括提升小文件并发性能,以及满足快速保存Checkpoint存档文件的高速宽写入要求。AS15000G7搭载全闪SSD和高速IB网络,可为“源”的训练保驾护航。
据测算,GPT-3使用10000块GPU、花了30天训练完成1750亿参数。“源1.0”在2128个集群上跑了16天即完成相应训练,算力效率达45%,其中存储的极致性能功不可没。
这一切才刚刚开始。考虑到AI大模型对高性能服务器、高吞吐并行存储系统、低延迟RDMA网络的严苛要求,将数据中心的算力、全闪、混闪按1:1:1的黄金比例建设有望成为新的潮流。刘希猛认为,2026年也许是“黄金比例”大行其道的时间节点——AIGC的演进速度很可能超出预期,先手布局者会更早受益。