【天极网笔记本频道】继《混合AI是AI的未来》白皮书之后,高通近日再度发布了一部有关AI的白皮书——《通过NPU和异构计算开启终端侧生成式AI》。前者详细阐述了高通对于未来AI发展的预测——终端侧AI和混合AI开启生成式AI的未来,并展示了高通在推动混合AI规模化方面的优势;后者则为我们进一步打开了视野——高通敏锐地判断生成式AI变革已经到来,研发专为生成式AI定制的计算架构是必然。基于异构计算理念,高通Hexagon NPU与高通AI引擎的价值更加显现。
此前,高通在二月举行的巴塞罗那世界移动通信大会(MWC)上发布了公司AI领域的最新进展。包括但不限于全新高通AI Hub、AI前沿研究突破以及AI赋能的商用终端展示。从MWC 2024全新AI白皮书的发布我们不难看出,身处行业上游的高通不仅仅在为开发者赋能,同时也在推动技术落地、向下游渗透,并且变革由骁龙和高通平台支持的广泛终端品类上的用户体验。
我们为什么需要NPU和异构计算
生成式AI进入端侧已经是大势所趋,而我们首先需要明确的一点是,生成式AI多样化的计算需求需要不同的处理器来满足。在端侧的具体使用场景中,CPU和GPU都会负担一部分AI运算。其中CPU主要应对顺序控制和即时性运算,适用于需要低时延的应用场景;GPU擅长面向高精度格式的并行数据流处理,比如对画质要求非常高的图像以及视频处理;而NPU则更擅长与AI运算直接关联的标量、向量和张量数学运算,可用于核心AI工作负载。正所谓“专业的人做专业的事”,不同的AI运算运行在适合的芯片上时才能够最大化效率。优秀的NPU设计能够为处理这些AI工作负载做出正确的设计选择,这与AI行业方向保持高度一致。
当下,要满足生成式AI的多样化要求和计算需求,整合不同的处理器的算力是必然。高通的NPU并非是独立存在的,而是与CPU、GPU共同构成了异构计算体系。高通AI引擎包括高通Hexagon NPU,它是高通AI引擎中的关键处理器,通过定制设计NPU以及控制指令集架构(ISA),高通能够快速进行设计演进和扩展,解决瓶颈问题并优化性能。
此外,高通AI引擎还包括高通Adreno GPU、高通 Kryo或高通 Oryon CPU、高通传感器中枢和内存子系统。这些处理器为实现协同工作而设计,能够在终端侧快速且高效地运行AI应用。在四大核心模块的通力协作下,高通异构计算能够实现最佳应用性能、能效和电池续航,实现生成式AI终端性能的最大化。
优势明显 高通NPU以质取胜
从2007年起,高通就开始在NPU方面进行研发尝试并持续投入。2015年,骁龙820集成了首个高通AI引擎;2018年,高通在骁龙855中为Hexagon NPU增加了Hexagon张量加速器。2020年,高通对Hexagon NPU进行了架构变革融合,AI加速器架构为高通未来的NPU架构打下了坚实的基础。2023年,第三代骁龙8的微切片推理进一步升级,在降低内存带宽占用;Hexagon 张量加速器增加了独立的电源传输轨道,大共享内存的带宽也增加了一倍。基于以上提升和INT4硬件加速,Hexagon NPU成为了面向终端侧生成式AI大模型推理的领先处理器。
目前,Hexagon NPU可以实现在终端侧运行高达100亿参数的模型,在首个token的生成速度和每秒生成token速率方面业界领先。MWC 2024期间,高通展示了在第三代骁龙8移动平台上运行的首个大语言和视觉助理大模型(LLaVA),能够基于图像输入解答用户的相关问题。
除了手机端,高通在AI PC方面的建树同样瞩目。高通在去年底发布了专为AI PC打造的骁龙X Elite平台,它能支持在终端侧运行超过130亿参数的生成式AI模型,AI处理速度是竞品的4.5倍。基于骁龙X Elite,高通也展示了全球首个在终端侧运行的超过70亿参数的大型多模态语言模型(LMM),可接受文本和音频输入(如音乐、交通环境音频等),并基于音频内容生成多轮对话。该模型经过优化,能够实现出色的性能和能效,并完全在终端侧运行,充分发挥骁龙X Elite的强大能力。
从专业技术的角度来看,我们可以通过TOPS、也就是Tera Operations Per Second进行算力表示,1TOPS代表处理器每秒钟可进行一万亿次(1012)操作。但是具体到实际使用的场景中,NPU性能比较“难以感知”,AI性能也是一个比较不太好量化的数据,消费者很难对不同设备的AI性能进行同等条件下的测试。
我们现在能够见到的对AI算力进行量化的软件以鲁大师AIMark和AITuTu测试为代表。首先来看第三代骁龙8和三款Android以及iOS平台竞品的对比。在安兔兔AITuTu基准测试中,第三代骁龙8能够达到竞品B的6.3倍。而在鲁大师AIMark V4.3基准测试中,第三代骁龙8能够领先竞品6-8倍。在MLCommon MLPerf推理的不同子项中,例如图像分类、语言理解以及超级分辨率等项目中,第三代骁龙8都保持领先。
在PC端AI性能方面,骁龙X Elite与其他X86架构竞品同样优势明显,在面向Windows的UL Procyon AI推理基准测试中,骁龙X Elite在ResNet-50、DeeplabV3等测试中都保持着大幅领先,基准测试总分相较于X86架构竞品最大领先可达8.6倍。可以说,无论是在手机端还是PC端,骁龙平台在AI方面都具备突出的领先优势。在被称作“AI PC”元年的2024年,搭载骁龙X Elite的产品值得期待。
开发者获益 高通打造专业工具库
“工欲善其事,必先利其器。”身处行业上游的高通非常清楚,AI行业的发展离不了开发者的支持。开发者是行业生态的根基,如果没有针对开发者的相关工具应用,想要激发开发者的创作兴趣、快速完善行业生态只是空想。
全新的高通AI Hub正是高通为开发者准备的“利器”。刚刚于MWC 2024上推出的高通AI Hub包含预优化AI模型库,支持在搭载骁龙和高通平台的终端上进行无缝部署。
该模型库为开发者提供了超过75个主流的AI和生成式AI模型,比如Whisper、ControlNet、Stable Diffusion和Baichuan-7B,可在不同执行环境(runtime)中打包,在不同形态终端中实现出色的终端侧AI性能、降低内存占用并提升能效。高通针对所有模型进行了优化,使它们可以充分利用高通AI引擎内所有核心(NPU、CPU和GPU)的硬件加速能力,大幅提升推理速度。
值得一提的是AI模型库能够自动处理从源框架到主流执行环境的模型转换,直接与高通AI引擎Direct SDK协同工作,并且应用硬件感知优化。开发者可将这些模型无缝集成进应用程序,缩短产品上市时间,发挥终端侧AI部署的即时性、可靠性、隐私、个性化和成本优势。
此前高通也已经推出了高通AI软件栈(AI Stack)。从智能手机到PC、物联网终端、汽车,这一软件栈横跨高通所有不同产品线,对于开发者来说,只需开发一次就能将应用规模化扩展到不同类型的终端。高通AI软件栈不仅支持主流AI框架(如TensorFlow、PyTorch、ONNX和Keras)和runtime(如TensorFlow Lite、TensorFlow Lite Micro、ExecuTorch和 ONNXruntime),还集成了面向Android、Linux和Windows不同系统的用于推理的高通神经网络处理SDK。此外,对于采用不同操作系统的跨平台产品,高通AI软件栈也都进行了支持,甚至连部署和监控的基础设施也没有落下。
写在最后
终端侧AI是大势所趋。很显而易见的是,终端侧AI在成本和能效方面具备突出优势。生成式AI应用的扩展下,AI模型的规模也会越来越大,用户规模同样会不断增加,云端处理的成本问题会限制生成式AI的发展,而用户在终端侧获取这些模型几乎不需要费用。在可持续性方面,大规模用户访问云端模型将产生大量的能耗。运行GPU、散热所消耗的能源将是天文数字。而在终端侧运行大模型的能效优势就很明显了,高通的Hexagon NPU以及异构计算体系能够支持在终端侧以最高效的方式运行AI模型,让消费者在端侧感受到AI带来的便利。
AI生态的构建并非朝夕所能成。通过多年布局,高通从底层到生态一砖一瓦构建了异构计算架构,它不仅带来了Hexagon NPU,为智能手机、PC等众多平台推出了第三代骁龙8、骁龙X Elite等顶尖算力支持,同时为开发者设计了包括高通AI软件栈(Qualcomm AI Stack)和AI Hub在内的众多开发套件和工具库,助力开发者的同时也是在加速生态完善,最终使最广大消费者获益。
现阶段,虽然AI终端市场的发展还处在初期阶段,但高通已经通过AI为不同产品和解决方案带来了显著的改进,AI对消费者的重要性也在不断增加,未来无论教育、医学还是养老等各个领域,AI的作用将愈发凸显。高通势必将继续完善AI计算架构,推出更强大的计算平台,并且加速端侧生成式AI渗透并变革全球用户工作生活的方式,让所有人都能享受到生成式AI带来的便利。