当前位置:首页|资讯|生成式AI

深度:生成式AI的存储选型建议

作者:大数据在线发布时间:2024-06-04

麦肯锡研究报告显示,到2030年前,生成式AI有望为全球经济贡献7万亿美元的价值。

毫无疑问,生成式AI未来会影响到千行百业。正所谓,无数据、不AI。随着生成式AI逐渐进入到垂直行业之中,存储等基础设施的重要性日趋突出。近日,Gartner正式发布《Top Storage Recommendations to Support Generative AI》报告,解读了生成式AI各个阶段对于数据存储的需求,给出了生成式AI的存储选型建议。

大数据在线对该篇报告进行了编译,以下是报告全文:

为了支持GenAI应用,企业的底层存储基础设施需要一定的高级能力。这项研究可帮助基础设施和运营领导者了解这些功能,并为其生成式AI 使用案例选择正确的存储部署类型。

概述

影响:

  • 大多数企业将不必为生成人工智能(生成式AI)构建新的存储基础设施,因为他们将微调现有的大型语言模型(LLMs),而不是训练新模型。
  • 大规模生成式AI部署将需要独特的存储性能和数据管理功能,用于生成式AI工作流程的数据摄取、训练、推理和归档阶段。

建议:

  • 将数据直接引入现成的LLM或部署生成式AI时,获取“GenAI in a box”融合存储解决方案。
  • 在使用少量数据进行训练或采用预训练模型时,使用现有的企业存储平台:存储区域网络 (SAN)、网络附加存储 (NAS)、对象存储或超融合基础设施 (HCI)。
  • 要运行大规模生成式AI应用程序,需要构建一个端到端存储基础设施平台,该平台可以支持生成式AI工作流程的所有应用阶段:数据摄取、训练和微调、推理和归档。它应该能够灵活地管理来自多个来源的数据,包括数据中心、边缘和公有云。
  • 当可以放置在云中的数据没有限制或者所需计算和存储资源的规模未知时,可以选择公有云运行生成式AI应用程序。

战略规划假设

到2028年,四分之三拥有生成式 AI 训练数据的组织将部署单一存储平台来存储数据,这一比例高于 2024 年的 10%。

介绍

基础设施和运营 (I&O) 领导者主要从计算性能的角度评估AI和生成式AI应用程序的基础设施。在大多数情况下,组织在架构生成式AI基础设施时,服务器可能需要进行重大更新,从基于 CPU 迁移到基于 GPU,以满足对计算能力的极端需求,特别是在语言模型具有许多参数的情况下。然而,虽然存储是生成式AI堆栈中的关键层,完成模型训练时很容易成为瓶颈,但存储经常被组织所忽视。如果大小不正确,存储可能会减慢 GPU 的整体数据传输以及模型检查点和恢复过程,从而造成GPU速度的降低和关键计算资源的浪费。

没有一种存储部署类型适合所有企业,也没有一个单一的功能列表可以指出生成式AI 应用程序的最佳存储类型。如果选择错误的存储部署类型或忽略生成式AI所需的关键存储功能,那么可能会给组织带来一个高昂的代价。

生成式AI使用的存储需要三组独特的功能:

  • 单一、可扩展的数据湖存储平台,可以托管用于模型训练的所有数据,无论是基于文件或基于对象的用例、吞吐量或延迟敏感的工作负载、大型或小型文件、元数据密集型或数据密集型访问量大的工作负载。
  • 一个可提供足够高的性能的特定功能集,以在训练阶段保持服务器上的 GPU 占用,并足够快地完成模型检查点和恢复过程。如果存储无法足够快地将数据提供给 GPU,这些 GPU 就会闲置,这相当于浪费费用。
  • 一组可提供跨本地部署、多个云和边缘位置的全局数据管理功能。训练或完善模型所需的数据可能来自多个位置。如果没有全局数据管理数据,则必须对其进行复制,这会导致操作复杂性和容量浪费。

获得这些能力需要存储现代化,对于在大规模数据上训练新LLMs的企业来说尤其紧迫。目前来看,大多数企业不会采用训练新LLMs这种方法,但仍然需要存储层的高级特性和功能来支持生成式AI应用程序。

大多数组织将采用现有的人工智能模型,或根据其现有业务数据重新训练现有模型,并可选择根据其业务需求添加特定的外部数据。对于在少量数据上使用现有 LLMs 的企业来说,一体化、全栈、生成式AI一体式融合存储解决方案很可能是最佳选择。此类解决方案不仅包括必要的计算、存储和网络基础设施,还包括现成的、经过预训练的LLM。相比之下,如果组织所需的计算和/或存储资源规模未知,并且在将数据存储在公有云中时没有受到任何限制(通常与安全或隐私相关),则可能公有云解决方案会更加合适。

表 1 总结了建议的存储部署选项,具体取决于所涉及的训练数据的大小和性质。

影响和建议

大多数企业无需构建新的存储基础设施

Gartner 研究表明,五种生成式AI部署模型中只有一种需要构建基础模型或从头开始创建 LLM(参见图 1 和如何选择部署生成式AI的方法) 。其余四种类型使用现有的、现成的、预训练的模型,企业使用自己的企业数据(有时用外部数据进行增强)或提示工程和数据检索技术对其进行微调。组织越来越多地考虑将小型语言模型 (SLM) 作为 LLMs 的替代方案,以便快速测试模型并显示其针对特定业务或领域用例的投资回报率。SLM 通常使用不到 1 亿个参数,而 LLMs 使用数十亿个参数。

图 1:生成式 AI 应用的存储部署方法

当主要使用现有数据进行微调时,有两种部署存储的方法:

  • 投资专用的生成式AI盒装解决方案。这些通常是超融合解决方案,由适当大小的存储、计算和网络以及预训练的 LLM(类似于 Nutanix 的 GPT-in-a-Box)组成。
  • 使用现有的存储基础设施,无论数据是存储在文件、对象或块存储、外部或直连存储还是超融合存储中。对于这种方法,如果组织拥有一个数据管理软件层,可以提供跨不同存储孤岛、本地、边缘和/或公共云中的数据访问,则会有所帮助。

建议

领导者应该:

  • 将数据直接引入现成的LLM或运行生成式AI部署时,获取生成式AI盒装融合存储解决方案。
  • 使用现有的企业存储平台(SAN、NAS、DFS 或 HCI)来运行小规模生成式AI试点。
  • 投资数据管理解决方案,以提供跨现有存储的通用访问,以及支持自定义标记和基于元数据的搜索的能力。
  • 在考虑其他供应商的新产品之前,请先了解现有存储供应商的生成式AI功能。供应商正在快速为 GenAI 构建新功能并推出新的专用解决方案。

大规模生成式AI部署需要先进的模型训练和推理能力以及全面的数据管理能力

第一波大型复杂 GenAI 部署开始需要能够提供高效和高性能的数据存储基础设施。一些 GenAI 工作负载以 PB 级数据量而闻名,这些数据量对于 GenAI 工作流程的各个阶段有不同的性能和操作要求。对于这些工作负载,通常使用数据湖或分布式存储系统(例如 Hadoop 或 Spark)来存储训练数据和中间输出。在训练、微调和推理方面,专门的 GPU 优化的高吞吐量基础设施堆栈至关重要。

存储在此堆栈中发挥着重要作用,存储解决方案的选择取决于人工智能模型的大小。对于较小的型号,本地连接的磁盘存储可能就足够了。但较大的模型通常需要基于对象存储或并行文件系统的共享存储。对于大规模 GenAI 系统,可扩展、高容量和低延迟存储组件的集成对于处理非结构化数据操作时的最佳性能至关重要。

此外,GenAI工作流程的每个阶段都对数据存储提出了独特的要求,如表2所示。

生成式AI工作流阶段对数据存储的影响

大规模 GenAI 部署将通过增加数据量、需要支持不同的数据类型以及需要高效的数据版本控制和生命周期管理来影响非结构化数据存储领域。由于这些过程的资源密集型性质,模型训练和微调阶段对存储和相关基础设施提出了独特的要求。网络和存储基础设施必须适应高吞吐量,同时将数据丢失降至最低。它还必须是可组合的,从而支持 GenAI 工作负载不断变化的需求。此外,GenAI 数据平台必须在 GenAI 工作负载的不同阶段之间实现混合数据管理,以实现数据管道的自动化。最后,GenAI数据平台必须支持高于平常的数据安全标准,以保护敏感数据。

如表 2 所示,“一刀切”的存储基础设施方法不适用于 GenAI 工作负载,因为其工作流程具有异构性。I&O 领导者不仅应该关注用于训练 GenAI 模型的高性能存储,还应该构建端到端工作流程策略,包括跨边缘、公共云和本地存储解决方案提供数据管理功能的能力。

表三概述了您应如何评估存储平台以满足大规模 OpenAI 实施的要求。

大规模生成型AI基础设施的存储选择因素

目前,GenAI 的早期采用者正在与超大规模公共云提供商合作,因为这些提供商可以快速容纳任何规模的试点。超大规模提供商旨在支持整个数据技术堆栈,提供以可用LLMs为中心的GenAI开发服务。此外,亚马逊网络服务和谷歌(谷歌云)等超大规模提供商正在战略性投资于针对数据和存储进行优化的专有芯片和互连,以满足 GenAI 应用程序日益增长的需求。但由于涉及成本、安全性、隐私和专业LLMs的需求等原因,基于超大规模的部署并不适用于所有企业。

为大规模 GenAI 部署构建基础设施的 I&O 领导者应该:

  • 选择能够为面向带宽/顺序批处理工作负载和小文件/随机 I/O 工作负载提供高性能的供应商和产品,因为大多数传统解决方案无法为这两种类型提供良好的性能。
  • 使用共享存储方法来整合数据平台并消除生成式AI数据管道阶段之间的移动,并提高存储效率。
  • 通过使用高性能结构消除瓶颈并最大限度地提高 GPU 利用率,实现现有存储网络的现代化。
  • 开发跨不同人工智能数据管道阶段和部署选项(边缘、核心和公共云)的集成数据管理方法,以避免引入存储孤岛。

本文来自微信公众号“大数据在线”(ID:dobigdata),作者:大数据在线,36氪经授权发布。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1