九月,借2023年中国国际服务贸易交易会的契机,高通技术公司在国家会议中心线下发布了人工智能白皮书——《混合AI是AI的未来》。继五月在线上发布之后,该白皮书的线下发布也展现了高通与业界更广泛地分享这一成果的迫切与期待。高通为什么要这么下力气推进混合AI的发展,又为什么着力推进AI落地终端侧呢?
混合AI发展离不开终端侧AI
近年来,生成式AI展现出了前所未有的发展潜力。在行业层面,生成式AI提升了创新的效率和质量,并且加速了各行业的数字化和智能化转型进程;具体应用到消费端,以智能手机这一消费者使用最广泛的移动终端为例,生成式AI已经展现出强大的力量,正逐渐接管智能生活的核心。
智能语音助手、智能聊天机器人等应用在生成式AI加持下摘掉了“人工智障”的帽子,能够提供更为精准的回答、更加贴近用户需求的反馈,提高操作效率。此外,生成式AI还为智能手机上的内容创作和娱乐带来了革新,用户可以通过AI生成的内容来创作文章、图文、音视频等多种形式的内容。
生成式AI正在以燎原之势席卷整个世界,但生成式AI想要进一步落地,必然离不开端侧的支持。目前我们应用到的AI大模型的规模在10亿参数级,未来面对数十亿、上百亿参数的模型,仅靠云端是完全不够的。受制于成本、设备、功耗、运行等方面,终端侧势必要在未来的生成式AI应用中占据关键性的位置。
高成本是阻碍生成式AI落地的一大绊脚石。从AI模型的发展规律来看,AI 模型对计算基础设施的要求极高,这也将AI限制在了云端部署。需要注意的是,AI推理的规模远高于AI训练。需要消耗大量资源的模型训练频率低,但这些模型的推理成本将随着日活用户数量及其使用频率的增加而增加。而在云端进行推理的成本极高,这将导致规模化扩展难以持续。将一些处理从云端转移到终端可以减轻云基础设施的压力并减少开支。而正是基于此,现已部署的、具备AI能力的数十亿边缘终端能够得以利用,成为降低生成式AI规模化成本的基础。
而能耗则是另一关键要素。与云端相比,运行在端侧的高效AI处理器能够提供领先的能效表现。边缘终端能够以很低的能耗运行生成式AI模型,同时能帮助云服务提供商降低数据中心的能耗。高通公司全球副总裁侯明娟在发布会上指出,高通AI研发最关注的领域是“如何在低功耗环境下让AI更高效地运行”——这也是终端侧AI发展的一个难点与关键点,而高通将致力于通过提供高效的硬件、算法和软件工具,并持续推动终端侧AI性能功耗比提升。
由于查询和个人信息完全保留在终端,终端侧AI可以从根本上保护用户隐私。这不仅有助于解决保护公司保密信息的难题,对于消费者使用而言,混合AI架构中的“隐私模式”让用户能够充分利用终端侧AI向聊天机器人输入敏感提示。此外,相信不少用户在使用生成式AI的过程中等饱受“等待”之苦,这也是云端AI服务的弊端。当生成式AI查询对于云的需求达到高峰期时,就会产生大量排队等待和高时延,甚至可能出现拒绝服务的情况。低时延和无网络稳定使用也成为了终端侧AI的固有优势。
捷足先登 高通高瞻远瞩布局端侧生成式AI
端侧是高通关注的重点,也是AI惠及用户的落脚之处。在倡导终端侧AI落地方面,高通具有足够的实力与发言权。高通从2007年就开始投入人工智能领域的研究,到今年已经推出了第八代AI引擎,伴随着技术的进步,不断地将最新的算法和最强的能力加入到每一代的高通AI引擎中,让高效的AI无处不在。
高通明确地洞察了AI在移动端的应用前景。目前生成式AI正处于快速迭代并广泛采用的阶段,就不能像目前这样仅在云端进行推理,还必须在终端侧进行大量AI处理,而高通已经能够提供在边缘侧终端上低功耗运行生成式AI所需的处理性能。
高通已经在移动端运行超过10亿参数的AI运算,在终端侧AI推理方面,通过AI硬件加速和高通AI软件栈这样的简化开发的软件解决方案,高通将在未来几个月具备在终端侧运行超过100亿参数的模型,这将进一步提升AI在终端侧运算能力的上限,也意味着可以用于更加复杂的AI运算,帮助用户解决更多实际问题。
高通的AI加速架构灵活、稳健,能够应对生成式AI模型架构的潜在变化。随着大语言模型和其他生成式AI模型持续演进,高通AI软件栈和技术将随之不断发展。加之为开发者所提供的AI架构与全栈AI套件,无论何时开发者都有能够轻松开发混合AI应用。
在推进混合AI发展的路上,高通部署的边缘侧终端规模十分庞大,具备其他方案提供商所不具备的规模优势。在全世界范围内,目前搭载了骁龙和高通平台的智能终端数量已达到数十亿台。高通的AI能力已经赋能包括手机、汽车、XR、PC和物联网等一系列广泛产品,旗下AI加速解决方案以及各类关键IP创新和技术能够进行稳定迭代,并且支持跨细分领域快速普及相关功能并下沉到主流和入门级产品。
10亿参数模型在移动端落地应用
在本届服贸会期间,高通在展位上呈现了全球首个可以完全运行在安卓智能手机上的生成式AI大模型Stable Diffusion的终端侧演示。它能迅速理解用户用自然语言描述的需求,凭借其掌握的超过10亿与图像相关的参数,在执行20步推理之后创作出用户想要的图像。值得注意的是,这些任务全部在手机端完成,全程无需联网、无需访问云端,且用时不超过15秒。
高通采用全栈AI优化的方式,通过量化、编译和硬件加速进行优化,使Stable Diffusion能在搭载第二代骁龙8移动平台的手机上运行,在15秒内执行20步推理,生成一张512×512像素的图像。高通表示,这是在智能手机上最快的推理速度,其运算时延足以媲美云端,且用户文本输入完全不受限制。
高通还运行了一款参数量级达到15亿的ControlNet图像生成图像模型,它能够通过调整输入图像和输入文本描述更精准地控制生成图像。ControlNet能够在终端侧实现高效交互运行是通过一套跨模型架构、AI软件和神经网络硬件加速器的全栈式AI优化,12秒内便可完成16步推理生成AI图像,无需访问任何云端便能提供高效、有趣、可靠且私密的交互式用户体验。
随着强大的生成式AI模型不断缩小以及终端侧处理能力的持续提升,混合AI的潜力将会进一步增长。骁龙移动平台能够支持超过10亿参数的生成式AI模型,而在不久的将来我们就能看到高通在移动端部署的100亿参数的大语言模型,这在此前的移动端是难以想象的。
全栈式AI优化赋能终端侧AI应用
再强大的AI算力都需要开发者利用,形成用户可以实际使用的应用或服务。上游厂商、开发者、OEM与用户共同构成了AI应用的生态闭环。作为行业领导者的高通不仅拥有软硬件优势,还能够从底层为开发者和众多OEM厂商提供工具、配套设施和解决方案,打通整条AI开发通路。
目前,高通为应用、神经网络模型、算法、软件和硬件进行全栈AI研究和优化。高通AI软件栈能够帮助开发者实现一次开发,即可跨高通所有硬件运行AI负载。高通 AI 软件栈全面支持主流AI 框架,同时它还集成了面向不通系统的推理软件开发包(SDK)。高通开发者库和服务支持最新编程语言、虚拟平台和编译器,并集成了基础的实时操作系统(RTOS)、系统接口和驱动程序。
高通AI软件栈还集成了Qualcomm AI Studio,支持从模型设计到优化、部署和分析的完整工作流。这一工具相当于为开发者搭建了一个官方的“工具箱”,在这个工具箱界面内,开发者可以自由选择需要的工具,极大地降低开发难度,有助于缩短开发时间、提高开发效率,同时还支持开发者实时查看模型开发进度。
高通的混合AI解决方案是一个全栈优化的整体解决方案。高通为应用、神经网络模型、算法、软件和硬件进行了全栈AI研究和优化。异构计算方法利用硬件(比如 CPU、GPU和AI加速器)和软件(比如高通AI软件栈)来加速终端侧AI。从算法和模型开发到软件和模型效率、从量化编译到硬件加速,高通的全栈式AI优化助力厂商、开发者加快终端侧AI落地进程。
写在最后
生成式AI加速渗透的趋势不可阻挡,但它不可能仅停留在当前这个阶段。生成式AI正在渗透进千行百业,在汽车、物联网、XR等细分领域提供全新的增强用户体验。预测显示,到2025年,AI在智能手机、PC/平板电脑、XR、汽车和物联网等细分市场的应用率将从2018年的不到10%增长至100%。
正如前文所述,高通所要推动的AI落地到终端侧至关重要。
在高通的终端侧AI优势的帮助下,众多厂商正在融合自身创新,不断提升科技创新水平,将更多的AI大模型带到消费级领域,让最广大用户享受到生成式AI带来的高效便利。同时,生成式AI在智慧城市、智慧交通、智慧工业、智慧农业等多个领域快速发展,影响力正在与日俱增。相信在生成式AI的加持下,千行百业的数字化转型与高质量发展将如虎添翼。