7月18日,由给力讯息主办的AIGC应用商业峰会在上海举行。作为AI智算云服务的先锋企业,优刻得受邀参会,并展示了最新的智算基础设施建设成果和落地应用。会上,优刻得智算解决方案总监李腾发表了题为《智算助力AIGC商业新纪元》的精彩演讲。
据悉,本次会议围绕AIGC应用、行业垂类模型、AIGC中间层、通用大模型以及AI算力层等核心议题,搭建了一个全面而深入的交流平台,旨在构建一个协同共进的完整AIGC生态,加速商业合作落地。
李腾表示,依托12年来在云计算平台的建设和运营服务经验,优刻得自建内蒙古乌兰察布和上海青浦两大智算中心,形成“一云多芯”的先进架构,兼容CPU、GPU和DPU等多元算力,精准对接各行各业、各类场景的智算需求,成为助力AIGC应用落地的强劲引擎。
优刻得智算解决方案能力全景
目前,优刻得已经完善的具备从算力基座、算力调度、算力服务以及平台服务的全栈式智算基础设施能力。优刻得分布式训练支持和RoCE/IB高性能网络方案,为大模型训练提供了高带宽和超长稳定的网络环境。同时,在智算操作系统层面,优刻得通过集群网络加速、存储性能加速和镜像加载加速,大幅提高了AI模型的训练效率。
面对大模型对数据存储的特殊挑战,优刻得自主研发了高性能并行文件存储UPFS,支持GDS技术,通过RDMA网卡直接访问远端存储,减少访问时延、提升数据带宽,大幅缩短了写checkpoint时间,满足了大模型场景下低延迟、高吞吐的存储性能需求。
智算服务平台,助力AIGC商业落地
会上,李腾还强调到,对于国产算力兼容适配和异构算力的调度成为当前AI基础设施建设的关键。优刻得自主研发的“孔明”智算平台,提供了一站式AI集群管理解决方案,用户可轻松接入,并对异构算力进行统一动态纳管、按需匹配和调度计算资源。结合平台内部的故障发现、断点续训、备机备份等机制,极大限度地减少训练过程中因异常故障而引起的中断时间。
在国产算力层面,优刻得则与国内主流AI芯片厂商深度合作,在优刻得青浦智算中心上线首个了国产千卡智算集群,打造强大的国产通用GPU算力底座,已经成功支持智源研究院等千亿参数级别的国产大模型研发与验证。同时,优刻得发起算力合伙人计划,呼吁各方将闲置算力汇聚,共建大型智算中心、共享算力新生态,加速供销一体化平台的搭建。
优刻得对于AIGC发展趋势前瞻
谈及未来AI大模型的场景落地趋势,李腾表示,大模型更多的是提供通用能力和算法,为了进一步与业务场景结合,未来将孵化出多模态的行业模型,而垂直领域的大模型最有可能率先商业落地。优刻得致力于降低模型研发的技术门槛,以MaaS全体系服务,结合模型微调服务、大模型私有化部署等能力,让基础模型聚焦垂类业务场景,提高模型准确性、输出效率和泛化能力,助力AIGC创新应用快速商业化落地。
截至目前,优刻得智算云服务已在行业实践中取得了显著成效。某生物医药企业的AI翻译平台案例中,优刻得通过定制模型和专有名词库,帮助用户搭建了智能翻译平台,有效提高了翻译质量和效率;某重点科技大学在模型训练过程中,因模型参数量的不断增张,集群中的GPU和网络基础设施经常发生单点故障。利用优刻得“孔明”智算平台,该高校在大模型训练上实现了更高效的GPU算力使用和集群管理。