芯东西(公众号:aichip001)
作者 | ZeR0
编辑 | 漠影
芯东西6月12日报道,过去一年,从Stable Diffusion、ChatGPT到大语言模型等,生成式AI技术发展迅速。芯片巨头英特尔在生成式AI热潮中能发挥的作用受到业界关注。
近日,英特尔院士、大数据技术全球CTO戴金权与芯东西等媒体进行交流,谈到英特尔一直以来希望能够将AI普适化,也希望通过对算力优化、计算能力的提升来支撑生成式AI无所不在。
为了AI可以无所不在,计算也要无所不在。英特尔的计算设备或者说计算能力本身就是无所不在的,无论是笔记本电脑上的CPU、集成显卡、独立显卡,还是数据中心里的至强服务器,都实现了广泛存在,可被视为一个通用计算的能力。戴金权说,如果英特尔能做到利用XPU技术,在这些通用的、无所不在的计算上提供AI能力,那便可能真的可以做到AI无所不在。
他告诉芯东西,用普通的笔记本电脑或台式机,在英特尔第12代酷睿处理器上跑大语言模型,仅用集成显卡,已经能跑出非常好的效果。理论上,10代和11代酷睿处理器也可以支持跑本地跑生成式AI应用。如果用英特尔独立显卡,则能实现更好的性能提升。
一、目标是生成式AI普适化,从本地到云端提供算力支撑
整体来看,生成式AI有两类模型,一类是像Stable Diffusion这样的扩散模型,可以生成图片、音频、视频等等;另一类是大语言模型,从语言模型角度来生成文本、对话等等。两种类型模型的需求不同,扩散模型普遍计算需求更高,大语言模型很多时候无法放到一张显卡上跑,因此更多需要内存的带宽和大小能够支撑。
戴金权说,英特尔需对不同的计算要求、不同的内存要求、对Transformer注意力机制算子的要求,以及稀疏化、低精度等对模型的压缩,通过多样化技术对模型部署进行更好的支持。多模态也是一个非常重要的方向,最终大模型追求的是不仅能处理文本,还能处理图片、视频等等,不再是一个单一的算子,而是很多算子在模型里同时存在,这带来了一些技术上的挑战。
“英特尔的目标是希望能够将生成式AI普适化,不仅是从开源、开放的模型和软件的角度,计算能力的角度,从笔记本电脑到台式机,到数据中心,从处理器到专用加速器,如何利用像OneAPI的架构,在上面整个的软件栈提供这样的能力,这是英特尔可以做到的比较独特的地方。”他谈道。
据他分享,英特尔希望做到AI无所不在,不管是在本地端、云端、边缘端,只有每一颗英特尔的芯片都可以提供这样的智能计算能力来支撑这些生成式AI,才真正做到AI无所不在。
从硬件来看,英特尔可以从非常小尺寸的设备扩展到大规模的数据中心XPU架构,能够支持未来生成式AI无所不在的需求。从软件来看,当前主流大模型大多基于Transformer架构,业界对内存的需求和如何对其进行更好地加速做了大量的研究工作。
戴金权认为,Transformer这样的大模型可能会有更大的尺寸和多模态融合的需求,包括输入上下文的扩展,将来可能是今天的几倍、几十倍甚至更高。这会对软件算法的设计,比如低精度、低比特、压缩、稀疏化、注意力机制设计等产生不同的需求。所以,英特尔认为,软件算法设计的多样化,是将来有助于满足生成式AI和大语言模型的算力需求的重要组成部分。
这些需求可能会进一步引导英特尔将来的训练、推理,以及芯片的架构等。此外,大模型还在快速发展中,不同算法级别的发展,以及在不同场景适配的发展,都会给包括AI芯片在内的所有计算芯片、计算能力带来深远影响。
二、笔记本电脑本地畅跑大模型,仅用集显20秒生成一幅中国画
据戴金权分享,在支持生成式AI计算上,英特尔主要要做两方面的工作。
一方面是硬件工作,在英特尔的XPU平台上,比如一个笔记本电脑也可以看到有一个强大的XPU平台,有CPU、集成显卡、独立显卡,下一代还将有VPU,利用不同的加速来对生成式AI进行运算的支撑。数据中心端同样如此,第四代英特尔至强可扩展处理器内置的矩阵运算加速器(英特尔AMX),还有英特尔数据中心GPU Ponte Vecchio(PVC)、Gaudi系列专用AI加速器。
对消费者而言,目前笔记本电脑本地跑7B(70亿参数)大语言模型的运行速度已有很高提升。一般入门级的大语言模型在6B-7B的参数规模,13B(130亿参数)的模型算是其中参数较大的,能以飞快速度完成对话、回答用户问题。
除了大语言模型之外,目前英特尔可以将Stable Diffusion运行在12代酷睿笔记本电脑上。戴金权演示了用其实验室的一台笔记本电脑本地运行Stable Diffusion,通过利用iGPU(集成显卡),差不多20秒内就生成了1张中国画风格的猫。这可以在任何一台普通英特尔笔记本电脑上实现,如果使用dGPU(独立显卡),三四秒就能生成图片。
在数据中心端,英特尔至强可扩展处理器是一个面向通用服务器的CPU产品,要想做到“生成式AI无所不在”,它必然需要与很多数据库、和CIM系统结合起来。戴金权展示了在至强处理器上跑65B(650亿参数)大语言模型的视频。
另一方面,更关键的是软件工作。
当需将生成式AI或大模型映射到不同的计算能力上时,需要通过优化的编译技术的能力自动生成底层的最优的、最有效率的代码。
英特尔利用软件技术发挥硬件的计算能力,并致力于拥抱开源以及AI开放社区,包括在TensorFlow、PyTorch、Hybrid Bonding等开源软件方面与业界有广泛合作,如与OpenAI合作的AI编译器Triton,以及和微软合作优化的做大规模分布式训练的软件栈DeepSpeed等等。
此外,英特尔在低精度对模型的压缩上,可以更加高效地部署大语言模型,在社区里可以看到非常多的int3、int4、int8等低比特计算,通过软硬件的协作,英特尔才可以提供这样的运算能力。
针对英特尔的平台和生成式AI模型,英特尔与Hugging Face在Bloom等开源模型上做了很多性能优化工作。几个月前,Hugging Face英特尔利用Gaudi 2加速器对BLOOMZ 176B进行了优化和评估,结果显示,与8张英伟达A100相比,用8张Gaudi 2运行推理,速度要快20%以上。
英特尔还与Hugging Face在Stable Diffusion上展开合作,在第四代英特尔至强可扩展处理器上,利用AMX高级矩阵扩展来进行矩阵加速,可以做到在5分钟内微调一个属于自己的Stable Diffusion模型,4~5秒进行一个推理。
戴金权谈道,英特尔内部关于AI的工作,无论是数据、模型、应用,都有一个“负责任的AI”的流程,其中定义了如何消除偏见、如何使用正确的数据等;另一方面,大语言模型在实现对话、影响生产力流程起的同时,也会带来数据安全和隐私问题。
英特尔在数据安全和隐私计算方面做了很多相关工作,借助英特尔TDX、SGX等硬件级安全技术,加上软件层构建的面向大数据分析和机器学习的隐私计算平台(BigDL PPML, Privacy Preserving Machine Learning),能避免数据出域,降低数据泄露风险。英特尔实验室(Intel Lab)也做了探测判别Deepfake的研究,通过机器学习方法来判断数据虚假性的问题等。
此外,本地部署生成式AI、大语言模型,本身就对数据、模型的隐私形成保护。
结语:软硬件协同加速生成式AI,推动低门槛迈向未来计算
戴金权谈道,对于计算产业来说,最重要的是如何提供计算能力,以支撑上层的应用、算法。英特尔提出了“软件定义、芯片增强”,即用户需要用软件来定义自身需要什么样的计算能力,再从硬件角度来做更好的增强和支持。
从英特尔消费级CPU、集成显卡、独立显卡,到服务器端采用的至强可扩展处理器,以及在数据中心GPU、在Gaudi AI加速器上使用生成式AI,英特尔正将大语言模型和英特尔无所不在的计算能力相结合,提供一些全新的生成式AI体验。
在此之上,英特尔致力于打造开源开放的生态系统,从开源软件工具以及类似于像OneAPI这样的开放标准,为客户的笔记本电脑处理器、数据中心处理器、加速器做到针对不同场景的、对生成式AI的支持,让开发者更轻松构建一个软件。
除了被用于消费端内容创作和工作场景中的提高生产力外,生成式AI也日渐在AI for Science领域发挥作用。英特尔日前公布了拥有1万亿个参数的生成式AI大模型Aurora genAI,主要面向生物学、医学、大气科学、化学、天文学等科研领域。