“尽管 AI 算力资源需求增长迅猛,但算力利用率存在波峰波谷,算力资源的利用并非始终处于满负荷状态。”北京超级云计算中心运营实体北京北龙超级云计算有限责任公司 CTO 甄亚楠一语道出了算力产业发展的关键痛点。
为解决算力“供不上、用不起”的困境,在工业和信息化部指导下,由北京市通信管理局与北京市经济和信息化局联合部署,工业和信息化部北京互联网交换中心和北方算网联建全国首个互联互通平台。在2024全球数字经济大会期间,北京算力互联互通和运行服务平台战略合作签约仪式举行,北京超算作为参建与接入服务商受邀参加仪式。这标志着北京市在算力互联互通和运行服务领域迈出了坚实的一步,也进一步彰显了北京超算在算力服务方面的实力。未来,北京超算将配合算力互联互通和运行服务平台完成对接联调等平台建设工作。
算力资源利用率如何最大化?
大模型训练作为典型的大规模超算应用,具有异构计算、大规模并行计算等典型超算应用特征,在当下大模型训练算力需求爆发的时代,如何实现算力资源的最大化利用,成为关键问题。
从大模型算力供给来看,存在建设经费投入大、高端算力资源供货周期不可控、客户业务规划预期难以把握等制约因素。在甄亚楠看来,对于大模型而言,基座大模型企业对算力资源总量要求颇高,5000 卡规模的算力集群需求常见,国内能满足的算力中心较少;而行业或垂类大模型基于基座或开源模型微调,算力需求相对较小,国内许多算力服务单位能够满足。
为了让算力资源利用率实现最大化,北京超算采用超算架构模式构建智算资源,将分布在国内的各大算力中心的资源加以整合,并利用成熟的算力网络进行调度,以满足大规模训练所需的海量算力需求。例如,在与某科研机构的合作中,通过整合资源,成功将大模型训练时间从原本的数月缩短至数周,切实的帮助用户降本增效。
甄亚楠介绍,北京超算推出了按需构建算力资源的创新模式,通过算力租赁,让用户依据业务需求获取弹性的计算资源,实现大规模的计算任务。用户只需支付实际使用所需的计算量与计算时间,大幅降低运营成本,适用于各种大规模计算需求的场景。此外,还能够在用户业务运行中提升利用效率,比如某用户优化前利用率为 75%,优化后可达 97%,在综合成本不变的情况下充分发挥机器性能。
值得一提的是,在2024全球数字经济大会人工智能专题论坛上,人工智能大模型场景应用典型案例“2024人工智能大模型场景应用典型案例”正式发布,北京超算与中科闻歌合作推出的“雅意·智学大模型赋能教育领域应用实践”成功入选。
此外,北京超算已与北京智源人工智能研究院、智谱 AI、澜舟科技、中科闻歌、深势科技、智子引擎、中科紫东太初等单位形成了算力合作,为国产大模型如智谱 GLM-4、孟子大模型等提供了算力服务支撑,助力训练优化以及数据分析,为大模型团队提升效率。
打造高质量、高性价比的算力服务体系成立于 2011 年的北京超算,起初正如其名,定位以超算为主,服务于气象模拟、汽车流体力学模拟、材料模拟等科学计算领域,通过数值仿真解决应用问题,并连续四年蝉联中国 HPC TOP100 排行榜通用 CPU 算力性能(同构众核 CPU 性能)第一名。
在“东数西算”战略的推动以及“人工智能+”时代对高质量算力服务的需求下,北京超算从 2019 年开始布局 AI 算力,着力打造高质量、高性价比的算力服务体系。北京超算积极推动“算力市场化”改革,已形成“智算云”“超算云”“行业云”和“设计仿真云”四大公共算力服务体系,实现了跨区域调度、多算力中心的商业化服务能力。
图 超智融合全景算力服务
从“超算”到“智算”,北京超算是不是“降维打击”?甄亚楠表示,超算和智算有很强的相似性,都致力于解决计算密集型问题,且底层都是基于超算架构,在资源池、稳定性和高效性方面有着共性需求。北京超算中心凭借自身的行业背景优势,通过超算架构结合 GPU 卡服务 AI 计算需求,能够为用户带来显著的性能提升。
北京超算通过算力预测判断用户真正所需的算力资源,基于应用运行特征分析进行算力选型,帮助用户适配更高性价比的算力资源。那么,如何让算力更好用?
“我们为用户提供的并非单一技术、单一资源,而是一套满足用户综合发展需求的行业解决方案。通过 7×24 小时技术专家服务团队、平台预置 AI 主流框架、常用数据集等方式,满足用户在算力使用中的各种需求。”甄亚楠透露,北京超算具备万卡集群工程化能力,同时拥有长达十三年的专业服务经验,有力保障大模型训练、推理业务的开展,实现算力资源从可用到好用到降本。