当前 AI 大模型正成为技术力量新的爆发点,以 ChatGPT 为代表的 AIGC 应用风起云涌,持续演进的 AI 对网络的需求指数级增长:一方面,AIGC 带来的巨大流量和交互 AI 应用对网络的带宽和实时性提出了更高要求;另一方面,AI 大模型训练需要海量算力支撑,大规模、分布式 AI 集群使智算节点间通信面临着越来越大的挑战。
全球范围内的 AI 经济价值预计将达到数万亿美元,网络与算力作为数字基础设施,在 AI 加持下,必将进一步推动实体经济和数字经济新一轮高质量发展,寻求提供极致高性能网络已成为 AI 重要研究方向之一。
青云科技作为云服务厂商,在服务于 AI 科技行业客户过程中,遇到很多机遇和挑战。
一: AI 场景下多样数据采集瓶颈
在服务 AI 客户过程中,青云发现在这四种场景: NLP 自然语言处理,CV 计算机视觉领域,GIS 地理空间和卫星遥感数据, ASR 云合成方向,存在着数据采集的问题,即随着多场景、多样化的数据不断积累,各种边缘侧的数据该如何高效、快捷、安全、及时地传输到数据中心,从而保障数据加密过程中的诸多问题。
二:边缘场景不确定因素挑战
边缘网络的不确定因素也带来不小挑战,比如边缘设备的弱网、断电、通信异常导致数据传输不及时,无法保障数据传输过程中的数据安全隐私性;还有目前物联网设备、硬件设备多元化发展的情况下,边缘设备以及物联网网络多样环境下暴露出来的制约;芯片层、操作系统层不同接口协议兼容性的差异等。
三:容器平台多场景业务整合瓶颈
面向 AI 快速的发展,在 AI 训练以及推理高性能计算、容器云平台计算面临了多场景业务整合的瓶颈:随着 AI 大模型的不断发展,如何更好得管理、部署好模型的应用,以及升级及应用模型?
青云边缘侧自主研发的 EdgeWize 平台平台适配多种硬件、多种操作系统,以便于用户整合边缘端多侧设备;同时平台预留支持计算、边缘计算的能力,依托 SD-WAN 高可用链路进行传输,基于拓扑网的自动选择路径能力,保证数据传输的可靠性和安全性。对于边端的加密数据,青云科技推出多种加密协议保障边缘数据向数据中心的传输安全性,并依托云上多 Region、广域网络环网进行平台建设,构建云服务上的基石,保障用户的连续性和可靠性。
随着 AI 容器的业务普及发展和应用,青云科技也在积极探索容器化应用场景解决方案。
首先,青云科技在 QKE 容器引擎上支持一键式部署,能为用户提供操作便捷、简单易用的界面,从而保障集群上服务易用的能力。
同时,青云科技在 SD-WAN 网络组件上的容器化适配,缩短了边缘应用网络访问的路径,从而满足边缘应用多样性的网络需求。
最后,从边缘侧到 IaaS 层 K8s 管理业务集群,再到上层 PaaS 平台配套服务以及相应的管理服务,青云科技都能依托高效的网络能力,在运维监控以及可视化界面上为用户提供全方位的服务保障。
青云科技发布了 AI智算平台并提出一个概念:算力中心建设新模式,像管理本地资源一样管理 AI 基础设施。
在云边协同的场景下,不仅大量数据会被采集到云端,还有海量业务数据会被进行清洗、分析和相应的训练,而这些都离不开底层多元化算力的支持。基于此,青云 AI智算平台以解决多样化算力需求、智能化算力调度管理,以及智简化运维管理为核心目标。
青云科技提出跨区域混合组网架构。从图中可以看到在数据中心网络建设中,青云科技会将计算管理节点、存储网络和专有 GPU 网络集群做详细划分。尤其在目前大模型训练场景下,青云科技服务客户过程中,在高性能并行空间存储集群以及 GPU 计算集群,会规划满足客户专用的 IB 网络,通过 SDN 网络技术手段进行计算资源、存储资源、对象存储,比如 U10000 节点进行网络管理,再采用运营商提供的 UFM REST API 接口,实现多地跨区域、高速互联,以此满足网络层面相应的控制。
通过跨区域混合组网的搭建方式,青云AI智算平台在搭建和服务用户过程中,提供多个层面的产品类型。从底层物理节点层到上层逻辑服务层和相应的云服务层,都依托底层高速的 IB 交换机网络和业务的管理交换机网络,在 GPU 计算节点、并行文件存储节点和纳管 GPU 的裸金属节点上,都可以为客户提供配套的 PaaS 产品服务。依托数据中心多层服务能力,在不同的区域、不同的 Region 都可以为用户提供全局的训练、推理、业务模型和资源管理调度服务。同时基于青云科技多年公有云服务相应经验,还可以为客户提供整套运营运维管理的配套组件。
基于“解决 AI 场景下最首要的挑战”的目的,青云科技 AI智算平台具有多项优势:
支持数万张 GPU 卡的资源管理。
通信链路的网络优化,做到让数据不绕路,大大缩短数据到数据中心的传输路径。
支持多卡多芯的异构云平台,加速国产 GPU 芯片替代。
提高单卡使用调度的利用率,实现最大系统利用率。
广泛的调蓄选项,预留、恢复和关键作业的抢占式调度服务方式。
动态灵活、弹性地分配 GPU 资源。
为解决当今 AI 快速发展、海量数据增长的情况,青云科技除了提供高效的组网,完善的基础设施服务,也提供多样的存储支持。青云具备自研的 U10000 对象存储,可以降低用户存储成本,帮助用户提供完善的生命周期分层策略,同时提供满足大模型和高性能计算场景下并行文件存储的 EPFS,它支持高达百 GB 的访问带宽。在数据存储上也为用户提供多样化的,符合业务要求的各种类型的数据库和非关系型数据库。
在网络侧,青云科技为用户提供三种方式,即用户公网加密链器、采用自研 SD-WAN 互联网网络以及专线网络接入,可以灵活地接入青云 AI 算力调度云平台,也可以基于容器化 K8s、QKE 集群的 AI 算力调度平台接入。
通过上层 MaaS 产品服务,用多种算力配备高速的 IB 网络,可支撑用户在青云云平台上快速上线其预训练模型、通用模型以及行业应用模型,从而助力其快速开展自身训练推理的应用。随着 AIGC 的不断发展,青云也在不断地探索和迭代 MaaS 模型的产品服务。
在底层 AppCenter,青云可以支持不同的 VM、BM 以及 GM 管理集群,并且适配多种操作系统、芯片以及模型训练基础服务镜像。在上层可以采用 Slurm 调度系统以及 QKE K8s 调度系统,满足客户在模型训练以及模型层、数据层、AI 层、AIGC 应用层的发布。青云也支持从数据的管理、模型的训练以及测试发布整体的全生命周期的管理,会协助 AIGC 行业为用户提供更便捷、更快速的 AI 自助式服务。在模型生态上接入了很多商业化模型,给用户提供垂直领域行业以及互联网应用行业模型的能力。
未来,青云希望可以一键式交付整体环境,同时支持挂载高性能存储,我们也会不断融合市场更多的模型提供商,帮助用户在模型仓库中得到更选择,并且在垂直行业领域以及行业模型上做更多的尝试和探索。青云一直秉承“持续创新、合作、开放、共赢”的态度,希望与行业合作伙伴及客户,共筑数字世界的新未来。