2024 注定是 AI 行业热闹非凡的一年。虽然刚刚进入 3 月份,但是关于 AI 的新闻已经多次占据了头条。就在上个月,OpenAI 发布了文字生成视频的大模型 Sora,其逼真的效果直接清空了在这个细分赛道苦苦耕耘的创业者。几天后,英伟达市值站上 2 万亿美元,成为了历史上最快实现从 1 万亿到 2 万亿美元市值的企业。正所谓“当你发现金矿,最好的生意不是挖矿而是卖铲子”,英伟达成为了 AI 时代“军备竞赛”的最大赢家。
就在大家感叹“世界上只有两种 AI,一种叫 OpenAI,一种叫其他 AI”的时候,沉寂了许久的 Anthropic 放出王炸,这家由 OpenAI 前研究副总裁创立的公司,发布了最新的 Claude3 模型,各项指标已经全面超越了 GPT4。
AI 行业的风起云涌,也昭示了这个行业还处在一个初级阶段。技术迭代太快,暂时领先的企业可能在一夜之间就被新技术颠覆。一些眼花缭乱的新技术,虽然已经问世,但迟迟不公开或者没有部署。比如上文提到的 Sora,截至发文,还没有正式向公众开放。
生成式 AI 的研发和本地部署之间存在鸿沟。目前,大众使用的生成式 AI 产品往往是部署在云端而在本地访问(比如 ChatGPT 网页),但这无法满足所有需求,并且会产生一些隐患。
首先,随着大模型越来越复杂,云端和本地之间的传输在有限带宽下变得捉襟见肘,比如一架波音 787 飞机每秒钟产生 5G 数据,如果上传到云端、计算、输出结果再返回,飞机可能已经飞出去几公里了(按照 800 公里/小时估算)。
如果在飞机上使用 AI 功能但是在云端部署,这样的传输速度是无法满足要求的。
此外,一些用户敏感数据、隐私数据,是否一定要上云?显然放在本地比云端更让用户放心。
不论生成式 AI 多么强大,如何部署到本地始终是一个无法绕开的问题。这是行业发展的趋势,虽然目前面临一些困难。
困难在于,如何把“大模型”装入“小设备”。注意,这里的“大小”是相对而言的。云端计算的背后可能是一个占地几万平方米的计算中心,而本地部署却要让生成式 AI 在你的手机上跑起来。手机没有液氮冷却,也没有无穷无尽的电力,该如何部署 AI 呢?
异构计算,一种可能的解决方案?
高通的异构计算 AI 引擎(以下皆称作高通 AI 引擎)为行业提供了一种可行的解决方案。即通过 CPU、GPU、NPU 以及高通传感器中枢和内存子系统的协作,实现了 AI 部署和大幅度提升 AI 体验的目的。
图|专门的工业设计让不同计算单元更紧凑 来源:高通
不同类型的处理器所擅长的工作不同,异构计算的原理就是让“专业的人做专业的事”。CPU 擅长顺序控制,适用于需要低延时的应用场景,同时,一些较小的传统模型如卷积神经网络模型(CNN),或一些特定的大语言模型(LLM),CPU 处理起来也能得心应手。而 GPU 更擅长面向高精度格式的并行处理,比如对画质要求非常高的视频、游戏。
CPU 和 GPU 出镜率很高,大众已经相当熟悉,而 NPU 相对而言更像一种新技术。NPU 即神经网络处理器,专门为实现低功耗、加速 AI 推理而打造。当我们在持续使用 AI 时,需要以低功耗稳定输出高峰值性能,NPU 就可以发挥最大优势。
举个例子,当用户在玩一款重负载的游戏,此时 GPU 会被完全占用,或者用户在浏览多个网页,CPU 又被完全占用。此时,NPU 作为真正的 AI 专用引擎就会负担起和 AI 有关的计算,保证用户的 AI 体验流畅。
总结起来说就是,CPU 和 GPU 是通用处理器,为灵活性而设计,易于编程,本职工作是负责操作系统、游戏和其他应用。NPU 则为 AI 而生,AI 是它的本职工作,通过牺牲部分易编程特性而实现了更高的峰值性能和能效,一路为用户的 AI 体验护航。
当我们把 CPU、GPU、NPU 以及高通传感器中枢和内存子系统集成在一起,就是异构计算架构。
来源:高通
高通 AI 引擎整合了高通 Oryon 或 Kryo CPU、 Adreno GPU 、 Hexagon NPU 以及高通传感器中枢和内存子系统。Hexagon NPU 作为其中的核心组件,经过多年的升级迭代,目前已达到业界领先的 AI 处理水平。以手机平台为例,集成高通 AI 引擎的第三代骁龙 8 支持行业领先的 LPDDR5x 内存,频率高达 4.8GHz,使其能够以非常高速的芯片内存读取速度运行大型语言模型,如百川、Llama 2 等,从而实现非常快的 token 生成速率,为用户带来全新的体验。
图|NPU 随着不断变化的 AI 用例和模型持续演进,实现高性能低功耗 来源:高通
高通对 NPU 的研究,并不是近几年才开始的。如果要追溯 Hexagon NPU 的起源,要回到 2007 年,也就是生成式 AI 走入公众视野的 15 年前。高通发布的首款 Hexagon DSP 在骁龙平台上亮相,DSP 控制和标量架构成为了高通未来多代 NPU 的基础。
8 年后,也就是 2015 年,骁龙 820 处理器集成了首个高通 AI 引擎;
2018 年,高通在骁龙 855 中为 Hexagon NPU 增加了张量加速器;
2019 年,高通在骁龙 865 上扩展了终端侧 AI 用例,包括 AI 成像、AI 视频、AI 语音等功能;
2020 年,Hexagon NPU 迎来变革型架构更新。标量、向量、张量加速器融合,这为高通未来的 NPU 架构奠定了基础;
2022 年,第二代骁龙 8 中的 Hexagon NPU 引入了一系列重大技术提升。微切片技术消除了高达 10 层的内容占用,功耗降低并且实现了 4.35 倍的 AI 性能提升。
2023 年 10 月 25 日,高通正式发布第三代骁龙 8。作为高通技术公司首个专为生成式 AI 而精心打造的移动平台,其集成的 Hexagon NPU 是目前高通面向生成式 AI 最新、也是最好的设计。
由于高通为 AI 开发者和下游厂商提供的是全套解决方案(这部分内容会在第三部分详细叙述),并非单独提供芯片或者某个软件应用。这意味着在硬件设计上和优化上,高通可以通盘考虑,找出目前 AI 开发的瓶颈,做有针对性地提升。
比如,为何要特别在意内存带宽这个技术点?当我们把视角从芯片上升到 AI 大模型开发,就会发现内存带宽是大语言模型 token 生成的瓶颈。第三代骁龙 8 的 NPU 架构之所以能帮助加速开发 AI 大模型,原因之一便在于专门提升了内存带宽的效率。
这种效率的提升主要受益于两项技术的应用。
第一是微切片推理。通过将神经网络分割成多个独立执行的微切片,消除了高达 10 余层的内存占用,此举最大化利用了 Hexagon NPU 中的标量、向量和张量加速器并降低功耗。第二是本地 4 位整数(INT4)运算。它能将 INT4 层和神经网络和张量加速吞吐量提高一倍,同时提升了内存带宽效率。
图|第三代骁龙 8 的 Hexagon NPU 以低功耗实现更佳的 AI 性能
2 月 26 日,世界移动通信大会(MWC 2024)在巴塞罗那拉开帷幕。基于骁龙 X Elite,高通向全世界展示了全球首个在终端侧运行的超过 70 亿参数的大型多模态语言模型(LMM)。该模型可接收文本和音频输入(如音乐、交通环境音频等),并基于音频内容生成多轮对话。
所以,在集成了 Hexagon NPU 的移动终端上,会有怎样的 AI 体验?以及它是如何做到的?高通详细拆解了一个案例。
借助移动终端的 AI 旅行助手,用户可以直接对模型提出规划旅游行程的需求。AI 助手可以立刻给到航班行程建议,并且通过语音对话调整输出结果,最后通过 Skyscanner 插件创建完整航班日程。
这种一步到位的体验是如何实现的?
第一步,用户的语音通过自动语音识别(ASR)模型 Whisper 转化成文本。该模型有 2.4 亿个参数,主要在高通传感器中枢上运行;
第二步,利用 Llama 2 或百川大语言模型基于文本内容生成文本回复,这一模型在 Hexagon NPU 上运行;
第三步,通过在 CPU 上运行的开源 TTS(Text to Speech)模型将文本转化为语音;
最后一步,通过调制解调器技术进行网络连接,使用 Skyscanner 插件完成订票操作。
行业井喷前夕,开发者需要抢占先机
使用不同的工具测试骁龙和高通平台的 AI 性能表现,可以发现其得分比同类竞品高出几倍。从鲁大师 AIMark V4.3 基准测试结果来看,第三代骁龙 8 的总分相较竞品 B 高出 5.7 倍,而相较竞品 C 高出 7.9 倍。
在安兔兔 AITuTu 基准测试中,第三代骁龙 8 的总分比竞品 B 高出 6.3 倍。针对 MLCommon MLPerf 推理的不同子项,包括图像分类、语言理解以及超级分辨率等,也进行了详尽的比较。
进一步对比骁龙 X Elite 与其他 X86 架构竞品,在 ResNet-50、DeeplabV3 等测试中,骁龙 X Elite 表现出明显的领先地位,其基准测试总分分别是 X86 架构竞品 A 的 3.4 倍和竞品 B 的 8.6 倍。因此,在 PC 端,无论是运行 Microsoft Copilot,还是进行文档摘要、文档撰写等生成式 AI 应用,体验都十分流畅。
领先的 AI 性能不全是高通 AI 引擎的功劳,确切的说,高通对 AI 厂商的赋能是全方位的。
首先是高通 AI 引擎。它包括 Hexagon NPU、Adreno GPU、高通 Oryon CPU(PC 平台)、高通传感器中枢和内存子系统。专门的工业设计、不同部件之间良好的协同,这款异构计算架构为终端侧产品提供了低功耗、高能效的开发平台。
基于先进的硬件,高通又推出了 AI 软件栈(高通 AI Stack)。这款产品的诞生是为了解决 AI 开发中的顽疾——同一个功能,针对不同平台要多次开发,重复劳动。AI Stack 支持目前所有的主流 AI 框架,OEM 厂商和开发者可以在平台上创建、优化和部署 AI 应用,并且能实现“一次开发,全平台部署”,大大减少了研发人员的重复劳动。
图|高通 AI 软件栈帮助开发者“一次开发,全平台部署” 来源:高通
此外,还有高通在 MWC2024 上刚刚发布的 AI Hub。AI Hub 是一个包含了近 80 个 AI 模型的模型库,其中既有生成式 AI 模型,也有传统 AI 模型,还包括图像识别或面部识别模型,百川、Stable Diffusion、Whisper等模型。开发者可以从 AI Hub 中选取想要使用的模型生成二进制插件,做到 AI 开发的“即插即用”。
综合来说,如果纵向看深度,高通在硬件(AI 引擎)、软件(AI Stack)和素材库(AI Hub)三个维度全面加速厂商的 AI 开发进度。横向看覆盖广度,高通的产品已经覆盖了几乎所有的终端侧设备(第三代骁龙 8 支持手机等终端,X Elite 赋能 AI PC 产品)。
AI 应用处于井喷前的酝酿期。
在教育领域,AI 能针对学生的学习能力和进度制定个性化的教学方案;在医学领域, AI 可以用来发掘全新的抗生素类型;在养老方面,未来在一些社会老龄化问题比较严重的地区,可以利用 AI 终端收集老年人家中的所有个人数据,从而帮助预防紧急医疗事故。
之所以叫“井喷前”,正是因为还没有大规模部署。另一方面,AI 应用,作为最容易让用户产生粘性的产品之一,具有很强的先发优势效应。
AI 产品开发者需要先行一步,早一些让用户体验自己的产品,和用户建立连接,培养粘性,从而在竞争中占得先机。