随着国内云计算应用规模的增长,云计算的技术与商业逻辑也发生着变化。作为国内“第一家混合云上市公司”,成立于2012年的本土云计算厂商青云科技,陪伴了中国企业数字化转型十余年,在AIGC推动的新一波人工智能(AI)发展浪潮之下,通过推出的AI智算平台和AI算力云服务,抓住和把握这一“比过去10年更大的市场需求和机会”。
众所周知,智算中心投资巨大,能否盈利取决于运营效率与平台能力。而相比于投资与建设,运营智算中心更加专业和复杂。同时,由于数据的隐私性和属地性,智算中心建设分散,运营能力参差不齐。而支持业务的多样性,决定了智算中心要面对极其复杂和现实的技术问题。
结合青云的自身实践,青云科技产品经理苗慧将智算中心所面临的难点总结为五个方面,多元资源统一调度管理、高速网络瓶颈、环境搭建复杂、多业务整合瓶颈、缺乏运营服务。
面对AI基础设施的管理和运营,青云给出的答案是“AI智算平台”。在青云的产品定义里,AI智算平台是智算中心运营者的关键工具,可以帮其建立从建设运营的闭环。
实际上,这并非青云提出的一个纯“概念性”的东西,而是已经在国家超算济南中心取得成功实践的产品。三年前,青云开始服务国家超算济南中心,这是一个多元计算中心,同时也是一个异构算力中心,其中包括HPC超算、传统云计算(以CPU为主)、智算(以GPU为主),而且还存在国产化GPU产品的兼容。在这个建设方案里,几乎所有产业链上的厂商都在,但整个算力调度平台是由青云独家供应的。如今,国家超算济南中心已经成功运营并实现盈利。
在苗慧看来,国家超算济南中心成功实践的背后,是因为青云“AI智算平台”具备多区域业务资源整合、分布式调度与管理、AI训练平台、算法开发支持、灵活调度、混合组网、模型仓库(MaaS)、高速并行存储、容量推理服务平台等九大关键能力,可以做到“像管理本地资源一样管理AI基础设施”;同时,在芯片国产替代、智简运营运维和生态构建方面,青云也在持续迭代,具备了完整的平台能力。