大模型时代，英特尔软硬件技术的创新和布局

作者：CSDN发布时间：2024-07-10

编辑 | 宋慧

出品 | CSDN（ID：CSDNnews）

过去一年多来，生成式 AI 热度不减。CSDN 观察到，以 GhatGPT 为代表的 LLM（大型语言模型）技术“苟日新、日日新”，人类正式迈入一个新的科技变革周期，企业 IT 从传统模式向智能化方向跨越已是大势所趋。与此同时，人们的认知也在发生根本变化，不只是在关注概念，更关注实际应用以及底层的技术创新。此种背景下，AI 技术圈内的交流活动日益增多，思想的碰撞与融合变得更为频繁。

2024 年 6 月 28 日-29 日，英特尔在稀土开发者大会上，全面展示了其在大模型时代下，软硬件技术的深厚积累和最新战略布局。

开源开放，AI 技术范式升级中的不变主题

今天，在生成式 AI 的趋势之下，AI 技术开源与开放可以说是技术和产业界关注的焦点。

英特尔公司副总裁、英特尔中国软件与先进技术事业部总经理李映

在大会上，英特尔公司副总裁、英特尔中国软件与先进技术事业部总经理李映，强调了开源开放的重要性：“作为软件硬件开放开源生态系统的重要倡导者，英特尔的发展史就是一部开源开放的历史。不管是 PC 时代、服务器时代、云时代，还是 AI 时代, 英特尔都是最重要的参与者和技术贡献者。”

面对高速扩容的 AI 势头，企业正在迎来 AI 发展的转折点。Gartner 预计，2026 年 80%的企业将使用生成式 AI。在此趋势下，如何以高性能、开放、灵活的产品和解决方案助力企业推进生成式 AI 创新并加速其落地，成为了 AI 大模型时代企业把握机遇、应对挑战的重要策略。

李映认为，未来世界是软件定义、硬件增强的世界，打造高算力平台将变得越来越重要。当生成式 AI 成为兵家必争之地，诸多科技巨头纷纷加码布局，英特尔也亮出了诸多“杀手锏”。

英特尔布局，生成式 AI 背后的关键技术有哪些？

大体来看，英特尔在生成式 AI 领域的核心技术创新主要体现在三大层面，包括 CPU 硬件的迭代、AI 软件开发工具更新，以及软件解决方案调优三大方向。

英特尔® AMX，玩转 CPU 的文生图

近两年，文生图模型得到了快速发展，并在艺术创造、娱乐等领域展现了 AIGC 的巨大魅力。对于企业而言，要想推动文生图模型在业务中的落地，一个重要的挑战是解决模型推理所带来的性能、总体拥有成本 (TCO) 等方面的挑战。

为帮助用户应对文生图模型部署面临的巨大推理成本和专用 AI 加速器紧缺的挑战，火山引擎采用第五代英特尔® 至强® 可扩展处理器优化了其云服务器第三代 g3i 实例。

第五代至强® 可扩展处理器每个内核都具备 AI 加速功能，无需添加独立加速器，就可处理要求严苛的 AI 工作负载，包括对参数量多达 200 亿的模型进行推理和调优。

火山引擎第三代弹性计算实例在不同代处理器上的应用性能比较

对于 AI 任务，五代至强® 内置的英特尔® AMX 加速器，专门用于处理对深度学习工作负载来说至关重要的矩阵乘法。AMX 可以处理多样化的 AI 工作负载，并加速大模型推理。

英特尔® AMX 技术与上一代深度学习加速技术——向量神经网络指令VNNI及BF16相比，可将一维向量加速演变为二维矩阵加速，因此能够充分利用计算资源，提高高速缓存的利用率，并且避免潜在的带宽瓶颈。

在火山引擎 g3i 实例用户实践上，已经可以看到搭载第五代至强® 可扩展处理器带来的相关成果。推理速度加速后，最快可达 0.75 images/s，实现秒级生图性能。与未使用或不支持 AMX 指令集加速的实例相比，其文生图性能可提升 293%-388%。

AI 软件开发高效工具：PyTorch 扩展软件工具包 IPEX

除了高性能硬件之外，英特尔还为 AI 模型训练、推理等应用提供了一系列基于 PyTorch 框架的软件优化措施。这些优化被集成在英特尔的 Intel® Extension for PyTorch（IPEX）开源软件库中，旨在进一步提升模型的性能和效率。

IPEX 是英特尔发起的一个开源扩展项目，通过模块级别的全面优化，以及更简洁的 API，使得在原生 PyTorch 框架基础上，在英特尔硬件（如 CPU 和 GPU）上的深度学习推理计算和训练性能显著提升。IPEX 可支持 PyTorch 框架下 90%的主流模型，其中深度模型优化有 50+以上，用户无需复杂的配置，只需简单添加几行代码，完成 BF16 混合精度转换，即可轻松实现显著的性能提升，实现开箱即用般的便捷体验。

此外，英特尔还已实现并开源代码到 Hugging Face Diffusers v0.17，通过几行代码，用户可一步调用 Diffuser Pipeline 实现 IPEX 级别的性能优化，同时可支持 BF16 和 FP32 精度。

另外，为了提供更好的基于 Transformer 架构的生成式 AI 和 LLM 体验，英特尔还提供了另一个开源的全面工具包——Intel® Extension for Transformers（ITEX）。工具包提供了 Transformer风格的 API，可以在诸如英特尔® 至强® /酷睿™️ CPU等其他英特尔® 硬件上，通过几行代码轻松优化/量化LLM推理，为快速搭建起真实的大模型应用，发挥关键作用。

xFasterTransformer，加速推理、优化部署

随着 LLM 的规模化发展，如何降低推理成本、提高效率，成为最大挑战。为了对大模型在各行各业的广泛应用提供更优的技术能力，英特尔推出了名为 xFasterTransformer（xFT）的 LLM 推理加速框架，支持多种低精度数据类型，旨在帮助开发者提升 LLM 推理性能，最大化利用硬件资源，实现大模型的高效部署，为 LLM 在 CPU 平台上的推理加速提供了一种深度优化的解决方案。

作为一款专门针对 X86 平台进行了调优的开源 LLM 推理框架，xFT 不仅支持多机跨节点分布式运行，从而轻松应对更大模型的推理需求，还提供了从高级到低级的全面 C++和 Python API 接口，让集成和部署变得更为便捷与高效。xFT 支持 BF16、FP16、INT8、INT4 等多种数据类型，和 ChatGLM、ChatGLM2/3、Llama/Llama2/3 等主流开源大模型，无论是资深开发者还是初学者，都能轻松上手，享受极速的模型推理体验。

结语

在大模型蓬勃发展的今天，每一次技术创新都令人兴奋，这意味着我们距离迈向真正的人工智能时代又近了一步。可以说，智能化世界的未来，离不开强大的算力、先进的算法以及开源生态的支持。而以英特尔为代表的处理器产品以及持续优化的工具包，以及在开源社区的贡献，为 LLM 的部署、推理提供了显著的性能提升。这些优化措施以及新的战略布局，不仅减少了计算延迟和内存占用，还提高了模型的执行效率，从而为用户带来了更好的使用体验。为下一个计算时代加速，让 AI 无处不在。英特尔在软硬件的最新部署让我们看到，人类正在谱写 AI 时代的新篇章，智能化的未来正变得触手可及。

了解更多基于第五代至强® 可扩展处理器的火山引擎云服务器加速文生图模型推理：基于第五代至强® 可扩展处理器的火山引擎云服务器加速文生图模型推理 (intel.cn)