当前位置:首页|资讯|生成式AI

在生成式AI时代,为什么不能仅仅只依赖NPU

作者:三易生活发布时间:2024-03-15

原标题:在生成式AI时代,为什么不能仅仅只依赖NPU

前言:移动设备NPU的先行者,却并没有急于自我宣传

早在2013年10月10日,高通方面在官方播客内容中就介绍了一颗名为“Zeroth”,具体型号是QRC52244563-QC的全新处理器设计。

按照当时的说法,这是一款旨在探索“仿生神经元架构”设计的芯片。它的主要目的,是创建、定义和标准化一种更接近生物大脑的计算方式,并且为未来设备的“类人交互”打下基础。

说得更直白一点,这便是Neural Processing Unit(神经处理单元),也就是NPU这个概念在消费级处理器上最早的开端。

有意思的是,如果大家有关注后续几年的高通骁龙产品线就会发现,他们几乎是第一时间就将Zeroth的部分架构和功能引入到了旗下移动平台(骁龙820)里,但却在很长一段时间都对此并未进行宣传。

直到多年后,差不多是骁龙855、骁龙865时代,才开始看到高通强调SoC内置的“NPU”算力数据。自此之后,关于骁龙平台NPU的性能参数、相关AI功能和开发套件,便成为了他们在各种场合下宣传自家产品的“关键词”之一。

为什么高通明明是移动平台上NPU的先导者,却一度对于NPU的宣传并不显得那么“上心”呢?很多很多年后,我们才终于弄清了其中的原因。

效率是NPU最大优势,但却并非AI的“万灵药”

首先大家要知道一个最基本的常识,以目前的高通骁龙SoC为例,在它里面是不是只有NPU能够处理AI相关运算?答案其实是否定的。因为骁龙SoC的CPU、GPU、ISP,甚至是某些型号的基带内部,都会带有AI计算相关的指令集和硬件单元。也就是说除了NPU之外,其他的这些部件同样也可以用于进行AI计算。

但这些不同的处理单元,它们在处理AI运算时的“专长”是不一样的。比如CPU擅长顺序控制和低延迟即时处理,适合延迟敏感型的小模型AI。而GPU则精度极高、且吞吐量巨大,更适合AI图像处理这类超高性能、不允许出错的使用场景。

至于NPU本身,它最大的特点就在于超高的能效,以及相比CPU、GPU兼容更多的AI模型。所以适合作为最核心的AI处理单元,可以满足持续运行AI模型的需求。

当然这也就意味着,即便是目前最先进的NPU,在处理AI任务时也不可能“独当一面”,因为随着AI生态的发展,在大家熟知的消费类电子设备上已经有了种类越来越多的AI模型和应用。它们之中的很多,可能反而是使用CPU或GPU来运算会更快、或者效果更好。

异构计算+生成式NPU,多管齐下驱动AI体验

正因本身就是NPU最初的实践者,所以高通方面在一开始就对NPU的优势和短板都相当清楚,并做了针对性的设计。

一方面,他们从一开始就没有打算只依赖NPU去实现移动设备的AI体验,而是将自家的Adreno GPU、Kryo或Oryon CPU、传感器中枢和内存子系统,与Hexagon NPU一起“打包”成了“高通AI引擎”。

在这个“AI引擎”内,不仅NPU是专为AI计算优化设计,而且高通还通过定制的CPU、自研的GPU和Sensor Hub等部件,为它们都加入了优化过的AI加速能力。这些其他的处理单元可以与高通自家的NPU协同工作,为不同类型的AI应用分配最高效的算力资源。

另一方面,从高通近日公布的技术资料来看,他们旗下的NPU从2015年初次被集成到SoC至今,在9年左右的时间里其实已经更迭了四代不同的基础架构。

在这个过程中,高通的NPU硬件从最初只具备向量和标量两个计算单元,到加入张量加速能力,再到实现微切片推理和100亿参数大模型端侧运行能力,以及完全实现多模态生成式AI设计,每一次都有着极大的硬件变化。与此同时,由它们所驱动的智能手机AI体验,自然也就从简单的语音AI逐步进化为AI拍照、AI摄像、AI大语言模型、AI内容生成等,越来越多样化、也越来越复杂和效果神奇的种种功能。

发布全栈优化工具,高通让AI赋能数十亿设备

在前面说了这么多关于高通在NPU硬件、在AI异构计算方面的历史和产品设计后,可能有的朋友会想到,一方面高通有着庞大的产品线,这就意味着他们的处理器设计不仅限于手机,还包括PC、XR设备、音频产品,甚至是路由器平台,而这些不同设备上的架构,显然很难保证都处于同一个技术世代,所以它们之间必然会存在着不小的差异性。

另一方面,就算硬件再怎么先进,如果开发者不能做到完美的针对性适配,那么就可能白白浪费算力,或是让AI功能实际用起来的体验不够好。

那么面对这些问题,高通又是否想到了解决方案呢?答案是肯定的,这就要提到他们的高通AI软件栈(Qualcomm AI Stack)了。通过这项工具,开发者可以很容易地实现AI功能与AI框架、高通硬件平台、设备操作系统之间的自动适配。

高通AI软件栈支持包括TensorFlow、PyTorch和ONNX在内的不同AI框架与主流运行时,同时它还提供了大量已经确保与高通硬件深度优化过的库文件、服务、系统软件、工具和编译器,开发者可以很容易地选择他们想要开发AI功能的硬件平台,然后就能得到所有最适合的组合。他们也可以只编写一次AI功能,然后就简单地将其移植到由不同高通平台所驱动的不同形态设备上,从智能汽车驾驶舱到平板电脑、智能手机、PC,甚至是xR眼镜。

值得一提的是,在高通方面今天举行的AI技术沟通会上,还专门提到了即将上市的骁龙X Elite PC平台在AI性能方面的领先地位。

众所周知,目前几款最新的x86架构“AI CPU”普遍仅具备算力约为10-16TOPs的集成NPU,且并未彻底实现CPU、GPU与NPU的异构加速。

相比之下,内置45TOPs NPU、采用自研“Oryon”CPU和Adreno GPU的骁龙X Elite,现阶段毫无疑问就有着巨大的AI性能和软件先发优势。考虑到AI加速的系统和应用体验即将成为PC行业的全新“催化剂”,骁龙X Elite很有可能会凭借着提升巨大的性能水准,以及目前行业内最强的AI性能,成为高通有史以来最成功PC平台,并帮助他们站稳PC市场这一重要的新版图。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1