优刻得智算平台，助力AIGC商业新纪元

作者：优刻得云计算发布时间：2024-12-19

7月18日，由给力讯息主办的AIGC应用商业峰会在上海举行。作为AI智算云服务的先锋企业，优刻得受邀参会，并展示了最新的智算基础设施建设成果和落地应用。会上，优刻得智算解决方案总监李腾发表了题为《智算助力AIGC商业新纪元》的精彩演讲。

据悉，本次会议围绕AIGC应用、行业垂类模型、AIGC中间层、通用大模型以及AI算力层等核心议题，搭建了一个全面而深入的交流平台，旨在构建一个协同共进的完整AIGC生态，加速商业合作落地。

多元算力，夯实大模型智算底座

李腾表示，依托12年来在云计算平台的建设和运营服务经验，优刻得自建内蒙古乌兰察布和上海青浦两大智算中心，形成“一云多芯”的先进架构，兼容CPU、GPU和DPU等多元算力，精准对接各行各业、各类场景的智算需求，成为助力AIGC应用落地的强劲引擎。

优刻得智算解决方案能力全景

目前，优刻得已经完善的具备从算力基座、算力调度、算力服务以及平台服务的全栈式智算基础设施能力。优刻得分布式训练支持和RoCE/IB高性能网络方案，为大模型训练提供了高带宽和超长稳定的网络环境。同时，在智算操作系统层面，优刻得通过集群网络加速、存储性能加速和镜像加载加速，大幅提高了AI模型的训练效率。

面对大模型对数据存储的特殊挑战，优刻得自主研发了高性能并行文件存储UPFS，支持GDS技术，通过RDMA网卡直接访问远端存储，减少访问时延、提升数据带宽，大幅缩短了写checkpoint时间，满足了大模型场景下低延迟、高吞吐的存储性能需求。

智算服务平台，助力AIGC商业落地

会上，李腾还强调到，对于国产算力兼容适配和异构算力的调度成为当前AI基础设施建设的关键。优刻得自主研发的“孔明”智算平台，提供了一站式AI集群管理解决方案，用户可轻松接入，并对异构算力进行统一动态纳管、按需匹配和调度计算资源。结合平台内部的故障发现、断点续训、备机备份等机制，极大限度地减少训练过程中因异常故障而引起的中断时间。

在国产算力层面，优刻得则与国内主流AI芯片厂商深度合作，在优刻得青浦智算中心上线首个了国产千卡智算集群，打造强大的国产通用GPU算力底座，已经成功支持智源研究院等千亿参数级别的国产大模型研发与验证。同时，优刻得发起算力合伙人计划，呼吁各方将闲置算力汇聚，共建大型智算中心、共享算力新生态，加速供销一体化平台的搭建。

优刻得对于AIGC发展趋势前瞻

谈及未来AI大模型的场景落地趋势，李腾表示，大模型更多的是提供通用能力和算法，为了进一步与业务场景结合，未来将孵化出多模态的行业模型，而垂直领域的大模型最有可能率先商业落地。优刻得致力于降低模型研发的技术门槛，以MaaS全体系服务，结合模型微调服务、大模型私有化部署等能力，让基础模型聚焦垂类业务场景，提高模型准确性、输出效率和泛化能力，助力AIGC创新应用快速商业化落地。

截至目前，优刻得智算云服务已在行业实践中取得了显著成效。某生物医药企业的AI翻译平台案例中，优刻得通过定制模型和专有名词库，帮助用户搭建了智能翻译平台，有效提高了翻译质量和效率；某重点科技大学在模型训练过程中，因模型参数量的不断增张，集群中的GPU和网络基础设施经常发生单点故障。利用优刻得“孔明”智算平台，该高校在大模型训练上实现了更高效的GPU算力使用和集群管理。