编辑 | 宋慧
出品 | CSDN(ID:CSDNnews)
过去一年多来,生成式 AI 热度不减。CSDN 观察到,以 GhatGPT 为代表的 LLM(大型语言模型)技术“苟日新、日日新”,人类正式迈入一个新的科技变革周期,企业 IT 从传统模式向智能化方向跨越已是大势所趋。与此同时,人们的认知也在发生根本变化,不只是在关注概念,更关注实际应用以及底层的技术创新。此种背景下,AI 技术圈内的交流活动日益增多,思想的碰撞与融合变得更为频繁。
2024 年 6 月 28 日-29 日,英特尔在稀土开发者大会上,全面展示了其在大模型时代下,软硬件技术的深厚积累和最新战略布局。
开源开放,AI 技术范式升级中的不变主题
今天,在生成式 AI 的趋势之下,AI 技术开源与开放可以说是技术和产业界关注的焦点。
英特尔公司副总裁、英特尔中国软件与先进技术事业部总经理 李映
在大会上,英特尔公司副总裁、英特尔中国软件与先进技术事业部总经理李映,强调了开源开放的重要性:“作为软件硬件开放开源生态系统的重要倡导者,英特尔的发展史就是一部开源开放的历史。不管是 PC 时代、服务器时代、云时代,还是 AI 时代, 英特尔都是最重要的参与者和技术贡献者。”
面对高速扩容的 AI 势头,企业正在迎来 AI 发展的转折点。Gartner 预计,2026 年 80%的企业将使用生成式 AI。在此趋势下,如何以高性能、开放、灵活的产品和解决方案助力企业推进生成式 AI 创新并加速其落地,成为了 AI 大模型时代企业把握机遇、应对挑战的重要策略。
李映认为,未来世界是软件定义、硬件增强的世界,打造高算力平台将变得越来越重要。当生成式 AI 成为兵家必争之地,诸多科技巨头纷纷加码布局,英特尔也亮出了诸多“杀手锏”。
英特尔布局,生成式 AI 背后的关键技术有哪些?
大体来看,英特尔在生成式 AI 领域的核心技术创新主要体现在三大层面,包括 CPU 硬件的迭代、AI 软件开发工具更新,以及软件解决方案调优三大方向。
英特尔® AMX,玩转 CPU 的文生图
近两年,文生图模型得到了快速发展,并在艺术创造、娱乐等领域展现了 AIGC 的巨大魅力。对于企业而言,要想推动文生图模型在业务中的落地,一个重要的挑战是解决模型推理所带来的性能、总体拥有成本 (TCO) 等方面的挑战。
为帮助用户应对文生图模型部署面临的巨大推理成本和专用 AI 加速器紧缺的挑战,火山引擎采用第五代英特尔® 至强® 可扩展处理器优化了其云服务器第三代 g3i 实例。
第五代至强® 可扩展处理器每个内核都具备 AI 加速功能,无需添加独立加速器,就可处理要求严苛的 AI 工作负载,包括对参数量多达 200 亿的模型进行推理和调优。
火山引擎第三代弹性计算实例在不同代处理器上的应用性能比较
对于 AI 任务,五代至强® 内置的英特尔® AMX 加速器,专门用于处理对深度学习工作负载来说至关重要的矩阵乘法。AMX 可以处理多样化的 AI 工作负载,并加速大模型推理。
英特尔® AMX 技术与上一代深度学习加速技术——向量神经网络指令VNNI及BF16相比,可将一维向量加速演变为二维矩阵加速,因此能够充分利用计算资源,提高高速缓存的利用率,并且避免潜在的带宽瓶颈。
在火山引擎 g3i 实例用户实践上,已经可以看到搭载第五代至强® 可扩展处理器带来的相关成果。推理速度加速后,最快可达 0.75 images/s,实现秒级生图性能。与未使用或不支持 AMX 指令集加速的实例相比,其文生图性能可提升 293%-388%。
AI 软件开发高效工具:PyTorch 扩展软件工具包 IPEX
除了高性能硬件之外,英特尔还为 AI 模型训练、推理等应用提供了一系列基于 PyTorch 框架的软件优化措施。这些优化被集成在英特尔的 Intel® Extension for PyTorch(IPEX)开源软件库中,旨在进一步提升模型的性能和效率。
IPEX 是英特尔发起的一个开源扩展项目,通过模块级别的全面优化,以及更简洁的 API,使得在原生 PyTorch 框架基础上,在英特尔硬件(如 CPU 和 GPU)上的深度学习推理计算和训练性能显著提升。IPEX 可支持 PyTorch 框架下 90%的主流模型,其中深度模型优化有 50+以上,用户无需复杂的配置,只需简单添加几行代码,完成 BF16 混合精度转换,即可轻松实现显著的性能提升,实现开箱即用般的便捷体验。
此外,英特尔还已实现并开源代码到 Hugging Face Diffusers v0.17,通过几行代码,用户可一步调用 Diffuser Pipeline 实现 IPEX 级别的性能优化,同时可支持 BF16 和 FP32 精度。
另外,为了提供更好的基于 Transformer 架构的生成式 AI 和 LLM 体验,英特尔还提供了另一个开源的全面工具包——Intel® Extension for Transformers(ITEX)。工具包提供了 Transformer风格的 API,可以在诸如英特尔® 至强® /酷睿™️ CPU等其他英特尔® 硬件上,通过几行代码轻松优化/量化LLM推理,为快速搭建起真实的大模型应用,发挥关键作用。
xFasterTransformer,加速推理、优化部署
随着 LLM 的规模化发展,如何降低推理成本、提高效率,成为最大挑战。为了对大模型在各行各业的广泛应用提供更优的技术能力,英特尔推出了名为 xFasterTransformer(xFT)的 LLM 推理加速框架,支持多种低精度数据类型,旨在帮助开发者提升 LLM 推理性能,最大化利用硬件资源,实现大模型的高效部署,为 LLM 在 CPU 平台上的推理加速提供了一种深度优化的解决方案。
作为一款专门针对 X86 平台进行了调优的开源 LLM 推理框架,xFT 不仅支持多机跨节点分布式运行,从而轻松应对更大模型的推理需求,还提供了从高级到低级的全面 C++和 Python API 接口,让集成和部署变得更为便捷与高效。xFT 支持 BF16、FP16、INT8、INT4 等多种数据类型,和 ChatGLM、ChatGLM2/3、Llama/Llama2/3 等主流开源大模型,无论是资深开发者还是初学者,都能轻松上手,享受极速的模型推理体验。
结语
在大模型蓬勃发展的今天,每一次技术创新都令人兴奋,这意味着我们距离迈向真正的人工智能时代又近了一步。可以说,智能化世界的未来,离不开强大的算力、先进的算法以及开源生态的支持。而以英特尔为代表的处理器产品以及持续优化的工具包,以及在开源社区的贡献,为 LLM 的部署、推理提供了显著的性能提升。这些优化措施以及新的战略布局,不仅减少了计算延迟和内存占用,还提高了模型的执行效率,从而为用户带来了更好的使用体验。为下一个计算时代加速,让 AI 无处不在。英特尔在软硬件的最新部署让我们看到,人类正在谱写 AI 时代的新篇章,智能化的未来正变得触手可及。
了解更多基于第五代至强® 可扩展处理器的火山引擎云服务器加速文生图模型推理:基于第五代至强® 可扩展处理器的火山引擎云服务器加速文生图模型推理 (intel.cn)