智能手机革命性的技术突破停滞已久。GPT出现后,业界逐渐达成共识:在智能终端(包括手机)落地端侧大模型,将再次拉开激动人心的重大创新的大幕。
在上海MWC 2023期间,荣耀CEO赵明宣称,荣耀将在智能手机端推动部署端侧大模型,以此作为荣耀新一轮产品技术攻坚的起点。但在7月12日,赵明没有披露其新一代折叠屏Magic V2端侧AI大模型的相关信息。
目前,端侧大模型的呈现形式均为软件。华尔街见闻了解到,荣耀AI大模型也将呈以软件形式,很可能被整合在MagicOS 8.0版本中。
不同于荣耀提出的在智能手机端部署AI大模型的能力着眼于未来,今年2月,高通已首次在Android智能手机上部署Stable Diffusion模型,十多秒即能生成AI图像。
高通产品管理高级副总裁兼AI负责人Ziad Asghar认为,大模型将迅速重塑人机交互方式。
高通先行:洞察个体需求
7月12日,荣耀发布新一代旗舰机“Magic V2”。在此之前的6月29日,荣耀CEO赵明曾公开宣称,Magic V2将具有革命性的越级体验。荣耀希望以此与行业一起,打破苹果一家独大局面。赵明同时表示,荣耀将率先将AI大模型引入端侧。
但在7月12日,赵明对Magic V2的技术特性或产品特征等信息的阐述,着重的是该机型的厚度(9.9mm)和重量(231克),却并未涉及端侧AI大模型。此举与赵明此前对Magic V2的端侧AI大模型吹风形成鲜明对比。若是细品赵明在6月29日的说法——“未来将率先把AI大模型引入端侧”,赵明或许意有所指。据华尔街见闻了解,未来荣耀要发布的MagicOS 8.0版,在部署AI大模型方面,很可能就会有所动作。
荣耀的AI大模型在端侧到底具有什么样的能力,这是个什么样的软件矩阵(包括编译/解码器、算力平台、能耗控制、参数数量和开发工具等),目前不得而知。
从行业层面看,高通已在今年2月首次在智能手机上实现了AI模型部署。到今年5月,高通部署的Stable Diffusion模型参数已增至10亿+。
Stable Diffusion是一个从文本到图像的生成式AI扩散模型,能基于任何文本输入,在数十秒内创作出逼真图像。
目前AI绘画最火的模型是Midjorney和Stable Diffusion,但目前Midjourney模型没有开源。Stable Diffusion由StabilityAI公司于2022年提出,论文和代码都已开源。Stable Diffusion是Diffusion的改进版,主要作用是解决Diffusion模型的速度问题。
关于文字怎么生成图片,技术原理解释起来过于复杂。简单来说,从Stable Diffusion最初的名字“Latent Diffusion Model(LDM)”看,本质是压缩了图片的像素,尺寸变小,再通过编译器(为何提及荣耀端侧大模型包含了什么样的编译器?)将扩散压缩后的图片还原成原始尺寸,其余的过程和Diffusion模型差不多类似。
在压缩图片的过程中,提升了文本转化成图片的速度,这是Stable Diffusion的主要功能。
回到高通在安卓手机中部署的Stable Diffusion模型。实现文本转图像,只是大模型在端侧实现部署时,就像宇宙的一粒尘埃,这只是智能手机未来革命性的应用体验的一个极小的“元素”。
通过部署端侧大模型的数字助手,将成为一种超越想象的存在。未来的用户,将有幸通过智能手机操控一切商业服务,包括餐饮、各类订票、专业咨询、娱乐、摄影摄像、撰稿、办公、参与金融活动等等。
这就真能实现高通这位AI负责人Ziad Asghar说的那样,“大模型有能力真正重塑我们与应用交互的方式”。
只有真正在端侧部署AI大模型,智能终端的“智能”一词,才能名副其实。
赵明说,“端侧AI大模型的使命就是更好地理解用户:知道我几点睡觉,知道我喜欢吃什么,能解决我的即时需求,相当于拥有洞察我需求的能力。”
做到拥有对使用者的个性需求洞察,原因是每部智能手机包含的个人应用数据,与能理解文字、影音和图像等多模态输入的大语言模型结合,最终智能手机的数字形式(比如虚拟数字人)就能极为精准地掌握使用者的偏好。更重要的是,这样强悍的个性化体验,还能建立在保护个体隐私的基础上。
怎样解决端侧AI模型短板
目前,尚无哪家技术公司能真正全面部署端侧AI大模型。
高通和华为成为了先行者。两者的区别在于高通更加系统,从底层技术入手,比如利用高通AI软件栈(Qualcomm AI Stack)执行全栈AI优化;而华为则更侧重具体的应用体验,但相比高通,华为的探索以其具象,从而显得更具有节点尝试特征。
从技术角度看,高通在智能手机中部署Stable Diffusion模型,实际上是将Stable Diffusion模型整合在手机的混合AI架构中,进而将之作为量化、编译和硬件加速优化等AI技术,以此支撑高度智能的应用体验。
荣耀未来若真的在MagicOS 8.0中部署端侧AI大模型,也将是这个技术原理。
实际上,通过自然语言(NLP)搜索,华为P60已能以之匹配出与描述相符的照片。这一功能,也是端侧AI大模型庞大强悍能力中的一个极小的应用点。
这个应用体验的实现,背后有华为多模态大模型技术和模型小型化处理技术的支撑。华为将自然语言智能搜图模型整合进了鸿蒙系统(HarmonyOS),实现与众不同的精准自然语言手机图库搜索体验。
相比华为,高通的端侧AI大模型部署,更侧重系统性的特征。
比如,高通的全栈AI研究,是指优化跨应用、神经网络模型、算法、软件和硬件。针对Stable Diffusion,高通从Hugging Face(开源模型库公司,旗下明星开源库是“Transformers”)的FP32 1-5版本开源模型入手,通过量化、编译和硬件加速推动优化,使其能在搭载第二代骁龙8移动平台的手机上运行。
在智能终端部署AI大模型,必须要解决性能和能耗问题。
首先,通过让大模型在高通专用AI硬件上高效运行,并降低内存带宽消耗,量化不仅能提高性能,还可降低功耗。这些包括诸如自适应舍入(AdaRound)等高通AIMET量化技术,能在更低精度水平保持模型的准确性,而无需做重新训练。
其次,以高通AI模型增效工具包(AIMET)训练后量化,可实现将大模型从FP32压缩为INT8。这是基于高通AI Research创造的技术所开发的工具,目前已集成进Qualcomm AI Studio中。
这部分能力由量化完成,其作用是将大模型在精度不变的情况下,从浮点数转变成整数,节省计算时间,以及在确保模型性能的同时,压缩整体规模,使之更容易部署在终端。
此外,AI模型能以最高性能和最低功耗高效运行的关键,在于编译器。AI编译器将输入的神经网络转化为能在智能应用终端上运行的代码,同时针对时延、性能和功耗做持续优化。
值得一提是高通5G移动平台骁龙8 Gen2首度集成的AI专用Hexagon处理器,采用了独立的专用供电系统,支持微切片推理、INT4精度和Transformer网络加速等,能在提供更高性能的同时,降低能耗和内存占用。这也是高通AI软件栈的组成部分。
这些技术能应用于构成Stable Diffusion的所有组件模型,即基于Transformer的文本编码器、VAE解码器和UNet。这对于让大模型在终端上的顺利运行至为重要。
高通的全栈AI优化,最终实现了通过Stable Diffusion模型在智能手机上的运行,能达成15秒内执行20步推理,并生成一张512x512像素的图像。这是在智能手机上最快的推理速度,能媲美云端时延,且用户文本输入完全不受限制。
无论是大模型公司,还是像高通这样的终端软硬件技术公司,抑或者是荣耀和华为一类的智能终端商,当行业实现上下游协同,共同推动将AI大模型在端侧实现泛在部署,最终将真正引发新一轮智能终端的技术创新浪潮,切实担起赵明所称的在智能终端带来革命性的应用体验重任。