2023年,ChatGPT、AGI、AIGC成为科技企业的“新宠儿”,各类大模型横空出世,新一轮AI算力浪潮来袭。与正在台前一展风采的“大模型”相比,AI算力作为幕后的重要支撑显得尤为腼腆。其实,AI算力产业的发展正是大模型向各领域进一步渗透的关键因素。
“AI和大模型,毫无疑问是生产力的变革。在这个技术催生的市场变化过程当中,客户对于算力的需求、对应用的要求,以及对于底层架构都在发生变化。”青云科技总裁林源在接受记者采访时表示,新一轮的变化就是新一轮的机会。
AI算力开启“数智化”时代,带来新机遇
当前,自动驾驶、人脸识别、智能制造等各类新兴业务对AI算力使用场景越来越多,AI变成各个行业创新的驱动力,推动着各个行业的数字化发展。林源在采访中表示,几乎所有的应用都需要拥抱AI的技术或者被AI改造,因为AI是一个更好的生产力工具,他们会降低用户的门槛,并且把原来很多做不了的事情变得能做,让“数字化”变成了“数智化”。
面对持续激增的AI算力需求,智算中心迎来了建设高峰期,但智算中心建成后的运营成为关键挑战。一是智算中心投资巨大,能否盈利取决于运营效率与平台能力;二是相比于投资与建设,运营智算中心更加专业和复杂;三是由于数据的隐私性和属地性,智算中心建设分散,运营能力参差不齐;四是支持业务的多样化,决定了要面对极其复杂和现实的技术问题。
因此,算力调度平台成为整个智算中心和AI算力建设中的相当重要但经常被忽视的核心组成部分,如何让智算中心运营更智慧、更便捷,是AI算力调度平台需要解决的核心问题。
对于深耕云计算十余年的青云科技来说,为智算中心运营者打造一个趁手的工具可谓是轻车熟路。同时,其“中立”的云厂商身份,也为青云科技在多元异构智算中心林立的市场下带来更多机遇。
据了解,青云科技正在携手生态合作伙伴,以经过实践检验的AI算力调度平台能力服务算力中心的建设者与运营者,实现多元算力统一调度、多类型业务应用兼顾、高效运维与运营,以青云AI算力云服务为企业与开发者提供从算力到应用的完整服务。
九大能力、八大优势,提高智算中心运营效率
“像管理本地资源一样管理AI基础设施”是青云科技给AI算力调度平台定下的目标。在青云科技产品经理苗慧看来,面向AI设施资源,智算中心还面临以下挑战:一是多元资源统一平台管理瓶颈;二是高速网络瓶颈;三是环境搭建繁琐;四是多业务整合瓶颈;五是缺乏运营服务。
为了应对以上挑战,青云AI算力调度平台从四个方面进行优化、研发,一是支持x86、信创等多种硬件架构和GPU卡;二是进行统一管理、调度和全生命周期管理;三是支持多种AIGC模型的一站式交付;四是支撑行业应用计算、高性能计算、人工智能计算等多中国应用模式。
据了解,青云AI算力调度平台致力于打造算力中心建设运营的新模式,实现对GPU算力、CPU算力、HPC算力、多存储、多模型资源、数据资源等多元资源的统一管理,打破网络速度瓶颈和环境搭建复杂等制约,面向多业务场景,提供多租户、计量、计费等丰富的运营功能,全面提升算力中心的运营效率与平台能力。
整体而言,青云AI算力调度平台具备自主创新、功能完善、智能运维、成熟运营、开源开放、安全合规、中立可靠、灵活部署八大优势,具备即刻调度扩容数万卡资源、设置最短优先调度链路、支持异构平台、提升感知作业级单卡颗粒度等能力。
苗慧介绍,围绕灵活调度、高速并行存储、分布式调度与管理、多区多业务资源整合、算法开发支持、混合组网、容器推理服务平台、模型仓库(MaaS)、AI训练平台九大关键能力,青云AI算力调度平台提供多元算力统一调度的同时,具备分布式调度与管理能力,并能够统一纳管多种异构硬件设备,提供开放的应用框架,既能通过智简运维运营帮助算力中心的建设者与运营者实现精细化管理,又能通过丰富的应用生态使能算力中心为最终用户快速落地业务场景。
值得一提的是,国家超级计算济南中心已经成功在青云 AI 算力调度平台的技术能力支撑下,通过一个超级计算平台,统一管理高性能计算、云计算、人工智能计算、数据存储备份、工业仿真计算等资源模块,纳管异构算力,运营多元算力,服务于科研计算应用、政务云应用、智慧城市应用等多元化业务。
携手生态同盟,加速释放AI算力价值
青云认为未来 AI 时代,企业一定是通过算力服务、算法和模型、高价值的数据来实现智能化,这也是 AI 生态体系的价值所在。青云的积累在于云计算的十年成长,因为分布式、融合算力等发展特征都决定了,基于云的部署是算力服务升级的重要前提。
林源强调,青云AI算力云服务的定位是一个开放的生态同盟,通过集结志同道合的合作伙伴,以“同盟”的方式一起运营AI算力云服务。因此,青云AI算力云服务从“为客户提供完整的解决方案”出发,聚焦自身能力,通过开放生态,联合AI软硬件供应商、算法模型服务商、各地不同规模的算力服务商以及行业应用服务商等,深度融合算力、算法、行业数据以及场景应用能力,让AI真正能释放出业务价值。
青云科技的生态主要是围绕AI算力基础设施的生态共享、AI算力大模型的资源整合以及 AI 数据资源的生态整合。苗慧表示,青云AI算力云可以用提供很多产品,如 A800裸金属服务器、虚拟化服务器、高速网络、训练集群、推理集群、镜像仓库和并行文件存储等。青云公有云的AI算力云服务也在持续对外运营。
面向企业用户,青云AI算力云服务提供算力资源、存储资源,以及镜像仓库、容器推理、高速IB网络等能力,让企业快速拥有灵活智能的AI计算资源,满足他们从训练、到数据清洗、再到推理的复杂需求,承载AI应用,支撑开发、测试、上线、运行等应用生命周期,并且能够兼顾成本敏感与延迟敏感。
林源表示,“我们希望通过开放、成熟、可运营的AI 算力调度平台,通过自营、合营乃至支撑第三方运营的方式,与生态同盟一起贡献‘AI Cloud’。而青云要做自己擅长的事,立足AI 算力调度能力,在数字经济新场景中迎来新发展。”