GPU之后，NPU再成标配，手机、PC如何承载AI大模型？

作者：DeepTech深科技发布时间：2024-03-11

2024 注定是 AI 行业热闹非凡的一年。虽然刚刚进入 3 月份，但是关于 AI 的新闻已经多次占据了头条。就在上个月，OpenAI 发布了文字生成视频的大模型 Sora，其逼真的效果直接清空了在这个细分赛道苦苦耕耘的创业者。几天后，英伟达市值站上 2 万亿美元，成为了历史上最快实现从 1 万亿到 2 万亿美元市值的企业。正所谓“当你发现金矿，最好的生意不是挖矿而是卖铲子”，英伟达成为了 AI 时代“军备竞赛”的最大赢家。

就在大家感叹“世界上只有两种 AI，一种叫 OpenAI，一种叫其他 AI”的时候，沉寂了许久的 Anthropic 放出王炸，这家由 OpenAI 前研究副总裁创立的公司，发布了最新的 Claude3 模型，各项指标已经全面超越了 GPT4。

AI 行业的风起云涌，也昭示了这个行业还处在一个初级阶段。技术迭代太快，暂时领先的企业可能在一夜之间就被新技术颠覆。一些眼花缭乱的新技术，虽然已经问世，但迟迟不公开或者没有部署。比如上文提到的 Sora，截至发文，还没有正式向公众开放。

生成式 AI 的研发和本地部署之间存在鸿沟。目前，大众使用的生成式 AI 产品往往是部署在云端而在本地访问（比如 ChatGPT 网页），但这无法满足所有需求，并且会产生一些隐患。

首先，随着大模型越来越复杂，云端和本地之间的传输在有限带宽下变得捉襟见肘，比如一架波音 787 飞机每秒钟产生 5G 数据，如果上传到云端、计算、输出结果再返回，飞机可能已经飞出去几公里了（按照 800 公里/小时估算）。

如果在飞机上使用 AI 功能但是在云端部署，这样的传输速度是无法满足要求的。

此外，一些用户敏感数据、隐私数据，是否一定要上云？显然放在本地比云端更让用户放心。

不论生成式 AI 多么强大，如何部署到本地始终是一个无法绕开的问题。这是行业发展的趋势，虽然目前面临一些困难。

困难在于，如何把“大模型”装入“小设备”。注意，这里的“大小”是相对而言的。云端计算的背后可能是一个占地几万平方米的计算中心，而本地部署却要让生成式 AI 在你的手机上跑起来。手机没有液氮冷却，也没有无穷无尽的电力，该如何部署 AI 呢？

异构计算，一种可能的解决方案？

高通的异构计算 AI 引擎（以下皆称作高通 AI 引擎）为行业提供了一种可行的解决方案。即通过 CPU、GPU、NPU 以及高通传感器中枢和内存子系统的协作，实现了 AI 部署和大幅度提升 AI 体验的目的。

图｜专门的工业设计让不同计算单元更紧凑来源：高通

不同类型的处理器所擅长的工作不同，异构计算的原理就是让“专业的人做专业的事”。CPU 擅长顺序控制，适用于需要低延时的应用场景，同时，一些较小的传统模型如卷积神经网络模型（CNN），或一些特定的大语言模型（LLM），CPU 处理起来也能得心应手。而 GPU 更擅长面向高精度格式的并行处理，比如对画质要求非常高的视频、游戏。

CPU 和 GPU 出镜率很高，大众已经相当熟悉，而 NPU 相对而言更像一种新技术。NPU 即神经网络处理器，专门为实现低功耗、加速 AI 推理而打造。当我们在持续使用 AI 时，需要以低功耗稳定输出高峰值性能，NPU 就可以发挥最大优势。

举个例子，当用户在玩一款重负载的游戏，此时 GPU 会被完全占用，或者用户在浏览多个网页，CPU 又被完全占用。此时，NPU 作为真正的 AI 专用引擎就会负担起和 AI 有关的计算，保证用户的 AI 体验流畅。

总结起来说就是，CPU 和 GPU 是通用处理器，为灵活性而设计，易于编程，本职工作是负责操作系统、游戏和其他应用。NPU 则为 AI 而生，AI 是它的本职工作，通过牺牲部分易编程特性而实现了更高的峰值性能和能效，一路为用户的 AI 体验护航。

当我们把 CPU、GPU、NPU 以及高通传感器中枢和内存子系统集成在一起，就是异构计算架构。

来源：高通

高通 AI 引擎整合了高通 Oryon 或 Kryo CPU、 Adreno GPU 、 Hexagon NPU 以及高通传感器中枢和内存子系统。Hexagon NPU 作为其中的核心组件，经过多年的升级迭代，目前已达到业界领先的 AI 处理水平。以手机平台为例，集成高通 AI 引擎的第三代骁龙 8 支持行业领先的 LPDDR5x 内存，频率高达 4.8GHz，使其能够以非常高速的芯片内存读取速度运行大型语言模型，如百川、Llama 2 等，从而实现非常快的 token 生成速率，为用户带来全新的体验。

图｜NPU 随着不断变化的 AI 用例和模型持续演进，实现高性能低功耗来源：高通

高通对 NPU 的研究，并不是近几年才开始的。如果要追溯 Hexagon NPU 的起源，要回到 2007 年，也就是生成式 AI 走入公众视野的 15 年前。高通发布的首款 Hexagon DSP 在骁龙平台上亮相，DSP 控制和标量架构成为了高通未来多代 NPU 的基础。

8 年后，也就是 2015 年，骁龙 820 处理器集成了首个高通 AI 引擎；

2018 年，高通在骁龙 855 中为 Hexagon NPU 增加了张量加速器；

2019 年，高通在骁龙 865 上扩展了终端侧 AI 用例，包括 AI 成像、AI 视频、AI 语音等功能；

2020 年，Hexagon NPU 迎来变革型架构更新。标量、向量、张量加速器融合，这为高通未来的 NPU 架构奠定了基础；

2022 年，第二代骁龙 8 中的 Hexagon NPU 引入了一系列重大技术提升。微切片技术消除了高达 10 层的内容占用，功耗降低并且实现了 4.35 倍的 AI 性能提升。

2023 年 10 月 25 日，高通正式发布第三代骁龙 8。作为高通技术公司首个专为生成式 AI 而精心打造的移动平台，其集成的 Hexagon NPU 是目前高通面向生成式 AI 最新、也是最好的设计。

由于高通为 AI 开发者和下游厂商提供的是全套解决方案（这部分内容会在第三部分详细叙述），并非单独提供芯片或者某个软件应用。这意味着在硬件设计上和优化上，高通可以通盘考虑，找出目前 AI 开发的瓶颈，做有针对性地提升。

比如，为何要特别在意内存带宽这个技术点？当我们把视角从芯片上升到 AI 大模型开发，就会发现内存带宽是大语言模型 token 生成的瓶颈。第三代骁龙 8 的 NPU 架构之所以能帮助加速开发 AI 大模型，原因之一便在于专门提升了内存带宽的效率。

这种效率的提升主要受益于两项技术的应用。

第一是微切片推理。通过将神经网络分割成多个独立执行的微切片，消除了高达 10 余层的内存占用，此举最大化利用了 Hexagon NPU 中的标量、向量和张量加速器并降低功耗。第二是本地 4 位整数（INT4）运算。它能将 INT4 层和神经网络和张量加速吞吐量提高一倍，同时提升了内存带宽效率。

图｜第三代骁龙 8 的 Hexagon NPU 以低功耗实现更佳的 AI 性能

2 月 26 日，世界移动通信大会（MWC 2024）在巴塞罗那拉开帷幕。基于骁龙 X Elite，高通向全世界展示了全球首个在终端侧运行的超过 70 亿参数的大型多模态语言模型（LMM）。该模型可接收文本和音频输入（如音乐、交通环境音频等），并基于音频内容生成多轮对话。

所以，在集成了 Hexagon NPU 的移动终端上，会有怎样的 AI 体验？以及它是如何做到的？高通详细拆解了一个案例。

借助移动终端的 AI 旅行助手，用户可以直接对模型提出规划旅游行程的需求。AI 助手可以立刻给到航班行程建议，并且通过语音对话调整输出结果，最后通过 Skyscanner 插件创建完整航班日程。

这种一步到位的体验是如何实现的？

第一步，用户的语音通过自动语音识别（ASR）模型 Whisper 转化成文本。该模型有 2.4 亿个参数，主要在高通传感器中枢上运行；

第二步，利用 Llama 2 或百川大语言模型基于文本内容生成文本回复，这一模型在 Hexagon NPU 上运行；

第三步，通过在 CPU 上运行的开源 TTS（Text to Speech）模型将文本转化为语音；

最后一步，通过调制解调器技术进行网络连接，使用 Skyscanner 插件完成订票操作。

行业井喷前夕，开发者需要抢占先机

使用不同的工具测试骁龙和高通平台的 AI 性能表现，可以发现其得分比同类竞品高出几倍。从鲁大师 AIMark V4.3 基准测试结果来看，第三代骁龙 8 的总分相较竞品 B 高出 5.7 倍，而相较竞品 C 高出 7.9 倍。

在安兔兔 AITuTu 基准测试中，第三代骁龙 8 的总分比竞品 B 高出 6.3 倍。针对 MLCommon MLPerf 推理的不同子项，包括图像分类、语言理解以及超级分辨率等，也进行了详尽的比较。

进一步对比骁龙 X Elite 与其他 X86 架构竞品，在 ResNet-50、DeeplabV3 等测试中，骁龙 X Elite 表现出明显的领先地位，其基准测试总分分别是 X86 架构竞品 A 的 3.4 倍和竞品 B 的 8.6 倍。因此，在 PC 端，无论是运行 Microsoft Copilot，还是进行文档摘要、文档撰写等生成式 AI 应用，体验都十分流畅。

领先的 AI 性能不全是高通 AI 引擎的功劳，确切的说，高通对 AI 厂商的赋能是全方位的。

首先是高通 AI 引擎。它包括 Hexagon NPU、Adreno GPU、高通 Oryon CPU（PC 平台）、高通传感器中枢和内存子系统。专门的工业设计、不同部件之间良好的协同，这款异构计算架构为终端侧产品提供了低功耗、高能效的开发平台。

基于先进的硬件，高通又推出了 AI 软件栈（高通 AI Stack）。这款产品的诞生是为了解决 AI 开发中的顽疾——同一个功能，针对不同平台要多次开发，重复劳动。AI Stack 支持目前所有的主流 AI 框架，OEM 厂商和开发者可以在平台上创建、优化和部署 AI 应用，并且能实现“一次开发，全平台部署”，大大减少了研发人员的重复劳动。

图｜高通 AI 软件栈帮助开发者“一次开发，全平台部署” 来源：高通

此外，还有高通在 MWC2024 上刚刚发布的 AI Hub。AI Hub 是一个包含了近 80 个 AI 模型的模型库，其中既有生成式 AI 模型，也有传统 AI 模型，还包括图像识别或面部识别模型，百川、Stable Diffusion、Whisper等模型。开发者可以从 AI Hub 中选取想要使用的模型生成二进制插件，做到 AI 开发的“即插即用”。

综合来说，如果纵向看深度，高通在硬件（AI 引擎）、软件（AI Stack）和素材库（AI Hub）三个维度全面加速厂商的 AI 开发进度。横向看覆盖广度，高通的产品已经覆盖了几乎所有的终端侧设备（第三代骁龙 8 支持手机等终端，X Elite 赋能 AI PC 产品）。

AI 应用处于井喷前的酝酿期。

在教育领域，AI 能针对学生的学习能力和进度制定个性化的教学方案；在医学领域， AI 可以用来发掘全新的抗生素类型；在养老方面，未来在一些社会老龄化问题比较严重的地区，可以利用 AI 终端收集老年人家中的所有个人数据，从而帮助预防紧急医疗事故。

之所以叫“井喷前”，正是因为还没有大规模部署。另一方面，AI 应用，作为最容易让用户产生粘性的产品之一，具有很强的先发优势效应。

AI 产品开发者需要先行一步，早一些让用户体验自己的产品，和用户建立连接，培养粘性，从而在竞争中占得先机。

GPU之后，NPU再成标配，手机、PC如何承载AI大模型？

推荐体验

相关资讯

手机、PC、汽车之后，老板电器将AI大模型引入厨电！

NPU高效能、低功耗，会是GPU之后又一风口吗？

解密PC的AI进化：AI大模型如何“压”进PC？

AI PC、AI手机之后 AI电视也来了！Vidda X 2025系列新品驾到

AI PC&AI手机专题报告：AIGC向端侧下沉成趋势

近期资讯

到底是谁给了商家们这种灵感？首届淘宝灵气之夜揭秘

日航遭网络攻击系统恢复正常

3连板福龙马：公司城市服务机器人尚处于起步拓展阶段

鼎阳科技：发布SSG6000A、SSA6000A及SNA6000A系列高端射频微波仪器，提升技术创新与产品开发能力

三星990 EVO：支持PCIe 5.0技术更低功耗笔记本扩容好伴侣

大疆无人机：性能提升价格降受益产业链

建设服务实现“双碳”目标全域化全场景一站式智慧化生态服务平台

2299起一加Ace5/Pro发布 | 华为Pura80Ultra工程机曝光多焦段潜望？

广汽集团发布自主研发的第三代具身智能人形机器人

不靠噱头靠实力，三思照明的紫外线杀菌箱太硬核了！

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响