2023年10月4日,Google在纽约举办了「Made by Google」硬件发布会,并正式发布了Pixel 8和Pixel 8 Pro。Pixel 8系列作为首批搭载Android 14系统的手机,据官方介绍其最大亮点就是AI功能。在发布会持续的一小时内,「AI」一词被提及超过50次,可见Google对这一功能的重视,以及AI是Pixel 8核心卖点的事实。
然而让人意外的是,日前Google以「硬件限制」为理由,拒绝在Pixel 8上运行最新的人工智能模型「Gemini Nano」。Google随后宣布即将在6月的季度更新中为Pixel 8提供「Gemini Nano」功能,但用户只能在隐藏的开发者选项中开启。
图源:Unsplash
对于此事,谷歌设备和服务软件副总裁Seang Chau解释称,为了能随时调用「Gemini Nano」模型,部分AI模型会常驻内存。而Pixel 8只有8GB内存,如果贸然启用「Gemini Nano」功能,很可能会影响用户的使用体验。与之相反,Pixel 8 Pro拥有12GB内存,能比较好地释放AI模型性能。
从Seang Chau的回复来看,Pixel 8并不是不能使用「Gemini Nano」,而是使用后会占用大量手机系统内存,导致其他应用的体验感下降。作为参考,三星Galaxy S24系列8GB内存版本就可运行Gemini Nano模型,而没有这方面的限制。
目前,大模型已经成为手机厂商们的「必争之地」,小米、华为、荣耀、OPPO、vivo等手机厂商均已发布搭载大模型的旗舰机型。像华为的盘古大模型、小米的MiLM、OPPO的安第斯大模型、vivo的蓝心大模型以及荣耀的魔法大模型,也随着新机发布首次走进消费者的视野。在以上大模型解决方案中,有以云端为主的,也有云端与端侧相结合的,但几乎没有纯端侧的大模型。
所谓的「端侧」,指的是将大模型服务布置在手机设备内部的芯片之中,仅利用芯片的算力生成结果。与云端大模型相比,这种方案的优势是不需要联网,因此数据不用上传至云端,减少了泄露风险,并在一定程度上减轻了云成本。
但纯端侧方案也有其不可忽视的劣势,就是算力有限。如果手机设备只是接入云端大模型,自然不需要终端设备拥有多强的算力和AI芯片,但如果在手机本地运营端侧大模型,则对算力有着极高的要求。尽管从理论上来说,常规手机芯片中的GPU、CPU都能进行并行计算,但在效率和能耗控制方面仍比不上AI芯片中专门用于AI加速计算的NPU/TPU等神经处理单元,更别提动辄拥有几百上千张顶级显卡的云端后台了。
图源:谷歌
而Google的「Gemini Nano」在发布之初,就已经将其定位为在移动设备上本地运行的端侧大模型,并且其内置在Android 14系统中。也就是说,未来如果其他开发者想通过AICore API直接调用其他Android手机的Gemini AI能力,将会遇到与Pixel 8相同的硬件要求问题。
在雷科技看来,Google之所以限制Pixel 8调用Gemini Nano模型,一方面是担心Gemini Nano模型在占用大量手机系统内存后,影响用户使用其他应用程序时的体验感,为了保险起见,干脆直接一刀切;另一方面,Pixel 8标准版与Pixel 8 Pro标准版的售价相差大约2000元,在核心配置相差不大的情况下,AI功能或许能驱使目标用户选择更贵的Pixel 8 Pro。
我们暂且不讨论运行内存对端侧大模型的影响是否真的有那么大,站在行业角度,如何在算力有限的手机上实现较好的大模型效果,是所有手机厂商都需要考虑的问题。
此前微软推出的Copilot Pro订阅服务对AI PC的算力和内存提出了明确要求,但在AI手机领域,至今还没有任何一家企业给出大模型手机的类似标准。
或许大部分人都不知道,其实最早被曝出规划手机端侧路线的企业,是至今仍未在iPhone用上大模型的苹果。苹果在招聘介绍中提及了本地推理引擎中实现压缩和加速大模型的相关要求,虽然iOS 18还未正式推出,但苹果对AI大模型的探索从其取得的专利就能窥见一二。
图源:Apple WWDC
日前,苹果研究团队发表了一篇关于「如何解决大模型手机内存不足」的论文。简单来说,研究团队尝试用闪存技术减少数据加载,并且优化数据块大小提高闪存吞吐量,最后实现对加载到内存中数据的高效管理。
毫无疑问,这是解决端侧部署大模型关键问题的可行方案。整个过程的重点是优化闪存交互和内存管理,在实验过程中,运用闪存技术的大模型延迟毫秒仅为原来的1/10。但论文提供方案仅针对60亿-70亿参数的模型,暂时无法完美处理超出参数范围的大模型。不过该方案给所有厂商提供了一个全新思路,未来完全有可能通过闪存技术解决端侧大模型内存不足的问题。
除了存储技术外,芯片厂商也从自身角度给出了可行的解决方案。2023年11月,联发科发布了号称「生成式AI移动芯片」的新一代旗舰SoC——天玑9300。针对亿级参数级别的大模型,天玑9300采用内存压缩技术「NeuroPilot Compression」,据官方介绍,该技术可以更高效地利用内存,大幅减少AI大模型对设备内存的占用,最高支持运行330亿参数的AI大模型。
图源:联发科
目前,vivo X100、OPPO Find X7、iQOO Neo9 Pro等机型均搭载了天玑9300处理器。其中联发科与vivo合作,已经实现了10亿、70亿、130亿参数的AI大语言模型的运行,此外,天玑9300还成功集成了通义千问大模型。
相比起云端,端侧的运行特性无疑更容易令消费者放心。要提升端侧大模型的实际表现,离不开手机厂商和硬件厂商的共同努力,闪存技术和内存压缩技术能有效解决大模型占用内存的问题,未来估计会被更多品牌采用。
端侧大模型占手机内存,用户怎么办?其实这是一个“想要什么”的问题。如果为了享受大模型功能,则需放弃手机原有的部分体验,现阶段绝大多数AI大模型其实并没有多少真正实用的功能,大多数手机用户充其量只是尝尝鲜,如果非要在非必须功能与手机体验之间进行二选一,相信选择手机体验的用户还是占大多数。
面对无法从根源解决大模型占用内存问题的情况,大内存就会成为用机体验和AI大模型功能兼顾的第二道保障。当前安卓手机的最低内存配置普遍为8GB,最高内存容量已经来到24GB,主流旗舰机型基本以12GB和16GB内存为主。如果以Google Pixel 8 Pro的12GB内存作为当前运行端侧大模型的内存标准,那么绝大多数手机品牌的主流旗舰还是过关的。
图源:小米商城
实际上,内存占用最多只能算是大模型进步过程中遇到的技术难题,只要继续发展相信这类问题终究会迎刃而解。但无论是端侧还是云端,大模型手机最需要搞清楚的核心问题仍是「用户是否真的需要大模型」。
大模型手机作为去年手机行业最热门的技术方向,几乎每家手机品牌的技术展会以及发布会都会提及相关技术。但在门店等线下渠道,雷科技却很少看到有品牌会将大模型放置在海报、卡片等宣传物料上。诚然,线下渠道确实不太好展示大模型的相关功能,但也能一定程度上反映出手机厂商们对当前大模型手机的态度,或许他们也清楚现阶段的大模型功能还很难在线下场景直接影响消费者购物。
大模型手机的技术水平仍处于初期发展阶段,手机厂商还在不断探索大模型与智能手机的结合。可以这么说:大模型能为智能手机带来的潜在价值,不亚于功能机到智能机的更替。至于大模型手机是否真的成为跟智能手机平行的新物种?不如让我们将答案交给时间。
本文来自“雷科技”,36氪经授权发布。