以文心大模型、 Llama、 ChatGPT和 ChatGLM 系列为代表的大语言模型 (LLM) 展示了人工智能(AI) 的惊人潜力,其在艺术创作、娱乐、市场营销方面的广泛应用激发了新一轮的产业革命。虽然 LLM 在各种自然语言处理任务中表现优越,但也带来了巨量的算力资源消耗,因此大部分训练任务会选择使用AI加速卡进行。目前机器学习开源框架如PyTorch 等虽然支持基于 CPU 平台执行计算,但 CPU 上的算力并没有被充分挖掘,通用框架软件基于CPU硬件的优化程度欠佳,其推理性能并不能满足真实业务的吞吐和时延需求。
百度智能云千帆大模型平台是一个面向开发者和企业的人工智能服务平台——一站式企业级大模型平台,提供先进的生成式 AI 生产及应用全流程开发工具链。它为开发者提供了丰富的人工智能模型和算法,尤其是丰富的LLM支持,能够帮助用户构建各种智能应用,实现更加智能化的自然语言处理任务。为了提升基于 CPU 的 LLM 推理性能, 百度智能云利用英特尔® 至强® 可扩展处理器搭载的英特尔® 高级矩阵扩展(英特尔® AMX)等高级硬件能力,助力千帆大模型平台在百度智能云上的 CPU 端的推理加速。
“大模型在各行业的广泛应用驱动了新一轮产业革命,也凸显了在 AI 算力方面的供需瓶颈。通过携手英特尔释放英特尔® 至强® 可扩展处理器的算力潜力,我们为用户提供了高性能、灵活、经济的算力基础设施方案,结合千帆大模型平台在大模型工具链、丰富的预置模型等方面的升级,我们将进一步推动大模型技术在各行各业的广泛应用,为企业智能化提供更多可能性。”
— 谢广军
百度副总裁
“百花齐放的大模型时代呼唤着更加经济、可及的 AI 算力资源,通过百度智能云千帆大模型平台,用户能够快捷、高效地部署基于 CPU 的 LLM 推理服务,并发挥英特尔® 至强® 可扩展处理器在 AI 推理方面的巨大价值。我们将进一步加速大模型的生态建设与软硬件创新,助力更多的用户利用大模型推动业务创新。”
— 陈葆立
英特尔数据中心与人工智能集团副总裁
中国区总经理
目前开源的 LLM 网络结构主要以 Transformer 子结构为基础模块,其推理解码的过程是一个自回归的过程,当前词的生成计算依赖于所有前文的计算结果。整个推理过程中的算力消耗关键在深度神经网络中的线性变换层部分,具体到算子实现层面即为矩阵乘法以及向量矩阵乘法计算,这也意味着, LLM 模型的推理会带来以下算力挑战,对于平台的吞吐性能以及文本的生成时延带来较大影响:
• LLM 模型推理涉及到大量的矩阵乘法计算,这属于计算密集型算子,对硬件的矩阵乘法计算能力提出较高需求;
• 在向量矩阵乘法操作中,由于模型权重的复用较少,属于访存受限型算子,对硬件平台的访存带宽带来较高要求。
目前,行业还存在大量离线的LLM应用需求,如生成文章总结、摘要、评估多个模型的效果等,与在线场景相比,离线场景通常会利用平台的闲时算力资源,对于推理的时延要求不高,而对于推理的成本较为敏感,因此用户更加倾向采用低成本、易获得的 CPU 来进行推理。百度智能云等云平台中部署着大量基于 CPU 的云服务器,释放这些 CPU 的 AI 算力潜力将有助于提升资源利用率,满足用户快速部署 LLM 模型的需求。
此外,对于 30B 以上规模的 LLM,需要采用高规格的 GPU 来进行推理,普通 GPU 无法支持。但是,高规格的 GPU 的成本较高、供货紧缺,对于离线场景的用户来说不是一个理想的选择。而针对该场景, CPU 不仅可以很好地支持 30B 及以下规模的模型,而且在性价比上更具优势。
百度智能云千帆大模型平台为企业提供大模型全生命周期工具链和整套环境,用户可以在百度智能云千帆上开发、训练、部署和调用自己的大模型服务。其提供智能计算基础设施、全生命周期工具链、丰富的大模型、数据集和精选应用范式,以及数据管理、模型训练、评估和优化、预测服务部署、 Prompt 工程、插件应用等全生命周期工具链,能够显著提升模型调优效果和应用集成效率。
• 覆盖大模型全生命周期:提供数据标注,模型训练与评估,推理服务与应用集成的全面功能服务;
• 推理能力大幅提升:可充分释放 CPU、 GPU 等硬件的推理性能潜力,算力利用率大幅提升,满足不同规模模型的推理所需;
• 快速应用编排与插件集成:预置百度文心大模型与国内外主流大模型,支持插件与应用灵活编排,助力大模型多场景落地应用。
百度智能云千帆大模型平台可以利用百度智能云平台中丰富的英特尔® 至强® 可扩展处理器资源,加速 LLM 模型的推理,满足 LLM 模型实际部署的需求。
新一代英特尔® 至强® 可扩展处理器通过创新架构增加了每个时钟周期的指令,有效提升了内存带宽与速度,并通过PCIe 5.0实现了更高的PCIe带宽提升。英特尔®至强®可扩展处理器提供了出色性能和安全性,可根据用户的业务需求进行扩展。借助内置的加速器,用户可以在AI、分析、云和微服务、网络、数据库、存储等类型的工作负载中获得优化的性能。通过与强大的生态系统相结合,英特尔® 至强® 可扩展处理器能够帮助用户构建更加高效、安全的基础设施。
第四代/第五代英特尔®至强®可扩展处理器内置了创新的英特尔® AMX 加速引擎。英特尔® AMX 针对广泛的硬件和软件优化,提供了一个 64 位编程模式,其中包含一组二维寄存器(块,tile),代表大型二维内存映像的子阵列,以及能够进行块操作的加速器它进一步增强了前代技术 — 矢量神经网络指令 (VNNI) 和 BF16,从一维向量发展为二维矩阵,以便最大限度地利用计算资源,提高高速缓存利用率,以及避免潜在的带宽瓶颈,显著增加了人工智能应用程序的每时钟指令数 (IPC),可为 AI 工作负载中的训练和推理提供显著的性能提升。英特尔® AMX 每个时钟周期可完成 2048 个 INT8 计算操作,是 AVX512_VNNI 同样数据类型的 8 倍。
英特尔® 至强® 可扩展处理器可支持 High Bandwidth Memory (HBM) 内存,高带宽内存 HBM 和 DDR5 相比,具有更多的访存通道和更长的读取位宽,理论带宽可达 DDR5 的 4 倍。虽然 HBM 的容量相对较小(每个 CPU Socket 64 GB),每个物理核心仅可以平均获得超过 1 GB 的高带宽内存容量,但对于包括大模型推理任务在内的绝大多数计算任务, HBM 可以容纳全部的权重数据,显著提升访存限制型的计算任务。经实测,在真实的大模型推理任务上可以实现明显的端到端加速。
百度智能云千帆大模型平台采用大模型推理软件解决方案 xFasterTransformer (xFT),进一步加速英特尔® 至强® 可扩展处理器的 LLM 推理速度。软件架构的详细信息如图 3 所示,其具备如下优势:
• 通过模型转换工具,xFT 可以支持 HuggingFace 上开源的模型格式。
• 软件的核心高性能计算库包括 oneDNN、MKL 以及针对 LLM 特别优化的计算实现,这些高性能计算库把对 AMX/AVX512 等加速部件的相关实现进行隐藏,上层的 LLM 基础算子实现以及网络层的实现都建立在此基础之上,形成了软件和硬件特性的解耦。
• 最上层提供 C++ 以及 Python 接口方便测试,且由于全部的核心代码均基于 C++ 实现,因此集成进现有的框架非常便捷。
具体的优化策略如下:
• 系统层面优化底层计算模块充分利用英特尔® AMX/AVX512 等硬件特性,高效快速的完成矩阵/向量计算;优化实现针对超长上下文和输出的 Flash Attention/Flash Decoding 等核心算子,降低数据类型转换和数据重排布等开销,显著提高计算并发度,降低访存开销;统一内存分配管理,降低推理任务的内存占用。
• 算法层面优化在精度满足任务需求的条件下,提供多种针对网络激活层以及模型权重的低精度和量化方法,大幅度降低访存数据量的同时,充分发挥出英特尔® AMX 等加速部件对 BF16/INT8 等低精度数据计算的计算能力。实测结果表明,使用量化处理后,计算密度较高的上下文处理部分(即第一个词的生成)和访问受限的部分均可实现显著加速。
• 多节点并行支持 Tensor Parallelism 等对模型权重进行切分的并行推理部署。使用异构集合通信的方式提高通信效率,进一步降低 70B 规模及以上 LLM 推理时延,提高较大批处理请求的吞吐。
当前千帆大模型平台已经引入了针对英特尔® 至强® 可扩展平台深度优化的LLM推理软件解决方案 xFT,并将其作为后端推理引擎,助力用户在千帆大模型平台上实现基于 CPU 的 LLM 推理加速。目前,该方案已经支持 Llama-2-7B/13B, ChatGLM2-6B 等模型部署在线服务(参见表 1),针对超长上下文和长输出进行支持和优化,支持百度智能云上的英特尔®至强®可扩展平台。
表 1. 百度智能云千帆大模型平台 xFasterTransformer 后端支持模型种类
Llama-2-7B 模型测试数据如图 5 和图 6 所示,第四代英特尔® 至强® 可扩展处理器上输出 Token 吞吐可达 100 TPS 以上,相比第三代英特尔® 至强® 可扩展处理器提升了 60%。在低延迟的场景,同等并发下,第四代英特尔® 至强® 可扩展处理器的首 Token 时延比第三代英特尔® 至强® 可扩展处理器可降低 50% 以上。在将处理器升级为第五代英特尔® 至强® 可扩展处理器之后,吞吐可进一步提升 45% 左右,首 Token 时延进一步下降50% 左右1。
通过在千帆大模型平台中采用英特尔® 至强® 可扩展处理器进行 LLM 模型推理,用户可以达到以下方案效果:• 通过千帆大模型平台提供的全生命周期工具链,快速在英特尔® 至强® 可扩展平台中部署 LLM 模型推理服务;• 高效释放英特尔® 至强® 可扩展处理器的 AI 推理性能,降低 LLM 生成时延,提供更佳的服务体验;• 对于 30B 以下规模的模型提供了完善支持;• 利用充足的 CPU 资源,降低对于 AI 加速卡的需求,从而降低 LLM 推理服务的总体拥有成本 (TCO),特别是在离线的 LLM 推理场景中表现出色。
通过 xFasterTransformer 等软件方案,百度智能云千帆大模型平台充分利用了英特尔® 至强® 可扩展处理器的计算能力以及新一代 AI 内置加速引擎英特尔® AMX,成功解决了大模型推理中的计算密集型和访存受限型算子挑战,实现了基于 CPU 的 LLM 推理加速,助力用户更加高效地利用 CPU 资源。未来,英特尔与百度将继续深化合作,推动大模型平台的发展,计划进一步优化 LLM 推理算法和实现,提升推理性能和计算资源效率,使得更多类型和规模的大模型能够在 CPU 平台上得到支持和加速。同时,双方将不断完善软硬件配套解决方案,提供更加全面和灵活的技术支持,满足用户在自然语言处理领域的不断增长的需求。
如果您想要了解该解决方案的详细信息,请关注英特尔开发人员专区微信公众号在后台回复“Baidu-Qianfan”,即可获取相关资料。
1 百度智能云截止至 2024 年 3 月的内部测试结果。测试配置 — 基准配置:英特尔® 至强® 铂金 8350C 处理器 @ 2.60 GHz,256 GB 内存,CentOS Linux release 7.9;新配置 1:英特尔® 至强® 铂金 8463B 处理器 @ 2.60 GHz,192 GB 内存,CentOS Linux release 7.9;新配置 2:英特尔® 至强® 铂金 8563C 处理器 @ 2.60 GHz,256 GB 内存,CentOS Linux release 9.0。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。