近期,金山云对象存储上线以固态硬盘(SSD)为存储介质的KS3极速型产品,最高可提供1Tbps/PB的兑付带宽,相较基于机械硬盘(HDD)的对象存储性能提升了上百倍,能为AIGC、存算分离、动漫渲染和高性能计算等场景提供强有力的存储解决方案。
开箱即用 最高提供1Tbps/PB兑付带宽
在性能方面,金山云KS3极速型根据容量大小提供PL3、PL2和PL1三种性能级别供用户选择,可提供的兑付带宽分别为1Tbps/PB、500Gbps/PB和200Gbps/PB。这一性能提升有赖于金山云对SSD并发能力的充分利用。基于SSD,金山云KS3极速型重新设计了垃圾回收机制,采用了零成本空间回收技术,同时解决了SSD的寿命和性能两大问题。
除SSD介质优化外,金山云KS3极速型还在接入层对现有的线程调度模型做了大量的优化,如优化了内存的零拷贝以及异步化等。通过优化内部调度模型,有效防止长尾任务对请求的阻塞。同时,KS3极速型采用了两级两维度的优先级调度策略,通过赋予不同的优先级来保证高优先级的任务能够得到及时响应。
针对不同场景,KS3极速型提供的带宽能力可根据数据量动态延伸,容量越大,可提供的带宽也越大。同时,KS3极速型还提供小时级调整性能及带宽的弹性扩容能力。在大幅提升性能的同时,KS3极速型还真正实现了“开箱即用”。KS3极速型完全兼容现有KS3访问API和SDK,用户在业务侧无需做任何修改,在创建极速型Bucket后即可直接使用。
面向AIGC、存算分离等场景 助力客户降本增效
在AIGC场景下,大模型的训练需要非常高的IO吞吐,而存储性能在这一过程中扮演着关键角色,存储的读写速度和稳定性会对模型的训练效率产生重大影响。因此,优化存储性能对于提高大型模型的训练效率和降低成本具有至关重要的意义。
以175B的大模型为例,假设对应的训练数据量为40TB。如果使用标准对象存储,按照20Gbps/PB的吞吐能力计算,加载所有训练数据至少耗时535min。如果使用KS3极速型对象存储,按照1Tbps/PB的吞吐能力,则最少可以在11min内完成所有数据的加载。
另一方面,在模型的生成过程中,一个175B模型单次Checkpoint数据量约为2.8TB。如果使用标准对象存储,单次Checkpoint写入时长约为37min。而极速型对象存储可在最短45s内完成写入操作。写入时长缩短到原来的约 1/50。
综合数据的加载和写入,在考虑到GPU和高速网络的成本远高于存储成本的情况下,假设大模型单次训练时长为1周,整个过程中包含1次完整的数据加载,和大概500次的Checkpoint写入。若采用基于全闪的极速型对象存储,不仅能缩短约39%的训练时间,还能降低约37%的总成本。
在大数据存算分离场景下,基于HDD的传统对象存储因性能有限,大多需要额外的缓存层来满足业务的高性能需求。缓存层会引入一系列问题,如初次加载的过长等待、缓存命中率及缓存空间带来的成本和运维成本等。而全闪对象存储能够提供与缓存层相近甚至更高的读写宽带,同时不会因缓存层引入额外的工作流成本,能更好地释放存算分离结构的灵活性优势。
金山云相关负责人表示:“在KS3极速型的基础上,我们制定了‘三步走’战略。第一步是实现高吞吐、低损耗;第二步是实现带宽和磁盘的交付率,这也是目前所处的阶段;第三步是实现全链路的更高性能。”未来,金山云将不断加强基于全闪介质的技术和产品能力,结合QLC技术的发展,以成本为切入点,打造高性价比、高性能对象存储产品,为行业和用户创造更大的使用价值。