【腾讯云】王登宇：AIGC数据处理与存储解决方案

作者：亚太CDN产业联盟发布时间：2023-04-24

4月20日，2023全球分布式云大会·北京站正式召开。作为本次AIGC数智中国科技周的重要组成部分之一，大会以“云智相生”为主题，着眼于分布式云和人工智能，以分布式云促进人工智能发展，以人工智能降低分布式云上云和用云门槛，为构建数智中国夯实基础设施和技术底座。

本次大会，全球分布式云联盟携手腾讯云、华为云、中国电信、中国移动、中国联通、玖章算术、F5等海内外云计算领军企业和运营商，共同开启分布式云智能化新纪元。

腾讯云王登宇

在上午举办的分布式领袖论坛上，腾讯云存储专家架构师王登宇发表了题为《AIGC数据处理与存储解决方案》的精彩演讲。

AIGC触发了内容生成革命，引爆众多行业颠覆式创新，王登宇表示，AIGC的核心要素包括内容生成，内容审核，内容智理三个维度。

围绕上述三个维度，腾讯云提供了端到端解决方案，基于腾讯云高性能计算集群HCC、TACO训练加速、TCCL网络加速、GooseFS数据加速，构建AIGC大模型训练和推理应用平台。

大模型训练，依靠的是算力和海量的数据。海量数据通过COS对象存储数据湖作为统一存储，腾讯云有着丰富的经验。近年来，腾讯云服务了大量人工智能相关领域客户，特别是算力和存储需求极大的自动驾驶领域，训练数据量级可达数百PB规模，在兼顾存储成本的同时，腾讯云自研的GooseFS数据加速，为AI训练提供高性能缓存服务。

模型训练算力方面，腾讯云的高性能计算集群HCC通过自研服务器提供最新代次A800、H800实例，通过TACO训练加速套件，发挥软件、硬件结合优势，总体训练性能提升30%以上。模型训练期间，对集群网络通讯效率要求非常高，基于腾讯云自研星脉网络架构，提供最高3.2Tbps RDMA网络，结合自研拥塞控制算法及TCCL集合通信库加速分布式训练通信效率。

当前大模型主要在NLP领域取得了突破性进展，并逐步拓展到了结合图片、视频的多模态领域。腾讯云针对于不同大模型的存储需求，做了针对性的领域细分解决方案。

以NLP场景为例，ChatGPT 3.5的训练数据在45TB左右，随着更新迭代未来将达到百TB级别，针对这个量级的训练数据，可以基于GPU节点的内存，构建一个MEM-Based Global Cache，每个GPU节点只需要提供部分内存，整个GPU训练集群就可以构建一个统一命名空间，数十TB的缓存空间，训练数据集通过内存缓存后，既可大幅提升数据访问效率。

基于图片的大模型训练场景，通常训练数据在PB量级，GooseFS使用GPU节点配备的NVMESSD作为缓存介质，结合上百台规模，可以构建成PB量级的统一命名缓存空间，满足图片训练数据集的缓存需求。

而对于自动驾驶场景，训练数据量级规模更大，GooseFS可以利用独立的存储集群构建全闪缓存系统，满足自动驾驶海量数据的训练需求。

从整体方案来看，GooseFS结合COS数据湖，可以提供多层数据加速能力。最底层是COS数据湖，所有数据都持久化存储在数据湖内。通常训练过程中数据集是处于不停更新滚动状态，在缓存和数据湖之间，GooseFS提供数据自由流动的能力，缓存系统可以与数据湖做到完全打通。由于缓存空间有限，部分数据在缓存里如果一段时间没有访问，会按照淘汰机制被自动淘汰，达到缓存空间被高效利用的目的。

GooseFS 集群具备弹性伸缩能力，根据业务对性能的需求，可以实时在线扩缩容。针对于AIGC大模型训练场景，在早期做模型的预研阶段，前期算力和数据相对较少，可以构建小规模的缓存系统，当开始大规模训练任务时，通过按需的弹性伸缩能力，在业务无感的情况下扩大GooseFS集群，缓存更多的数据，以匹配训练任务。训练任务结束后，可以选择将GooseFS集群销毁，精准控制缓存数据生命周期，降低成本。

GooseFS也支持私有化部署，来构建混合云缓存方案。基于数据湖搭建混合云大模型训练平台，做到一份Dataset，多地训练。通过这个方案，在数据湖上保存一份数据，可以通过缓存的机制把数据带到任何计算相关的地点去。

下图是大模型训练集群的最佳实践，训练节点采用8卡A800，内存配置2TB，网络一个是RDMA 1.6Tbps的网络，用于模型之间通讯；另一个是VPC 100Gbps网络，与数据湖存储打通。架构上GooseFS分为三部分，一部分是左边的元数据Master节点，提供元数据服务，可以独立部署，不需要部署到GPU节点；第二部分是Worker节点，提供数据缓存服务，推荐部署到GPU节点，利用GPU节点的NVME SSD作为缓存介质；第三部分是FUSE客户端，部署到GPU节点，提供POSIX兼容语义的Mount Point。

AIGC的内容安全方面，AI 生成的内容具有高效、不确定性强的特点，如何保证生成的内容合法合规是企业可以健康、高速发展的关键。

腾讯云数据万象结合对象存储推出的内容审核服务，从内容识别、存储安全、访问安全多方面发力，打造出一套最全面的存储内容安全解决方案。