给手机终端侧 AI 多点耐心

作者：AppSo发布时间：2024-07-29

关于手机终端侧 AI，有两个重要的时间节点，一是去年高通骁龙峰会，出现了一大批手机终端侧生成式 AI 的演示，文生图，文生文，情景感知智能提示都不在话下，这些运算全都基于本地，主要依靠 7B 左右的端侧大模型，或者手机上运行的 Stable Diffusion 实现，无需任何云端的算力。

比如今年年初，高通发布了新的 AI Hub，这个 AI Hub 包含预优化 AI 模型库，支持在搭载骁龙和高通平台的终端上进行无缝部署。该模型库为开发者提供超过 75 个主流的 AI 和生成式 AI 模型，比如 Whisper、ControlNet、Stable Diffusion 和 Baichuan-7B，可在不同执行环境 (runtime) 中打包，能够在不同形态终端中实现终端侧 AI 性能、降低内存占用并提升能效。

我们现在使用的 ChatGPT 或者 Kimi 这样的 AI 应用，结果的生成都是在云端，背后可能是数千亿乃至万亿级别的参数模型。

第二个节点是今年苹果 WWDC 上，苹果发布了 Apple Intelligence，这是 iOS 上的混合智能，即有两个端侧模型，分别负责图形和文字，也有云端服务来连接大模型。

当然，站在现在的时间点，我们在智能手机上还不太能体验得到端侧大模型提供的 AI 体验，技术演示和技术落地之间，还有一段路要走。

在 ChinaJoy 期间，我们采访了高通技术公司手机、计算和 XR 事业群总经理 Alex Katouzian，聊了一下关于 AI 设备的话题。

第一个问题就是，去年骁龙峰会的时候，我们看到非常多终端侧生成式 AI 的演示，大概过去了三个季度的时间，到现在，手机上的生成式 AI 其实主要还是在云端完成的，为什么终端侧 AI 会比我们预想的进展要慢？

Alex Katouzian 说：

我认为随着生成式 AI 市场不断发展，企业也越来越意识到真正重要的用例是什么、什么是能够在智能手机当中部署的实用特性。在过去，大家习惯于在云端处理 AI 功能，然而，如今云端计算的成本正在大幅增加。因此，包括大型操作系统公司、互联网公司在内的所有企业都在力推终端侧 AI，以尽可能将需求分流到终端侧。

高通公司的优势正是在于我们可以与这些企业合作实现这一目标。我们已经看到诸多公司都在推动终端侧 AI，他们只希望在必要时利用云端处理。

例如，你可以拿起手机识别你将用于烹饪的食材，成功识别后，你可以让手机帮你生成对应的菜谱，你还可以让手机给你一些低卡路里菜单组合；烹饪完成后，你可以通过摄像头，向手机询问这份食物所包含的卡路里。凭借智能手机如今对多模态 AI 能力的支持，这个用例可以完全在终端侧实现。

与此同时再来看智能眼镜，戴上智能眼镜，它就像你的眼睛和耳朵一样，可以看到和听到你周围的环境。但是为保证电池续航，智能眼镜的处理能力就相对有限，它只能支持大概 10 亿参数体量的小模型运行，得到的信息也较少。

但手机是我们随身携带的拥有最强处理能力的终端之一，我们可以将手机与智能眼镜相结，通过眼镜来获取信息，然后把信息放到手机上来处理，再将处理结果传回到眼镜端，这是一个面向终端侧 AI 的非常理想的解决方案。

言下之意，端侧 AI 自然有巨大意义，不管是降低成本还是提升用户体验上，都值得推广，但就是要等等。

那么，我们为什么要再等等呢？Alex Katouzian 提到了一个硬件上的掣肘：

目前一个 7B 参数的大模型需要占用 4GB 左右的内存，所以说如果你的手机总的内存只有 12GB 的话，再除去操作系统需要占用的内存，那么这对大模型的运行就是一个挑战了。同样都是占用 4GB 的内存，如果有 16GB 总内存的话肯定效果会比 12GB 总内存的更好。

另外一点就是，过往我们认为 10B 参数的大模型比 4B 参数的大模型要好，但这可能并不一定是百分之百成立的。因为现在的很多小语言模型已经做的越来越出色，它们基于云端的大模型进行训练，并可以针对非常具体的某一个或某几个用例来进行压缩，从而提升准确度同时减小规模。我觉得这就是未来的趋势，小模型通过不断训练变得更加准确。我们与众多模型厂商合作，挑选最准确、最轻量化的小语言模型来实现在手机终端侧的部署。

随着这些模型变得越来越准确，我们得以将一个 10B 参数的模型部署到手机端，所以我们的另一个挑战是，如何确保在端侧能够处理尽可能多的请求，只在必要时才返回云端进行处理。所以我们的目标是找到准确度最高的、占用内存最小的且能处理最多用例的模型。

正如我前面提到的，目前 4B 参数的模型已经做的相当出色了。以微软举例，他们在 PC 后台跑的小语言模型 Phi 大概的参数量在 3.8B 到 7B 之间。

这段话有 2 个核心信息，一是一个 7B 的模型就需要占用大量的内存，这对于非旗舰机来说挑战巨大，意味着 8GB 内存手机运行大模型之后将会变得不可用，12GB 内存手机也干不了太多事情，16GB 内存才是理想的内存大小，但是目前市面上内存容量达到 16GB 的手机占比很小，这意味着现阶段端侧大模型大规模落地还不具备成熟条件。

另一个核心信息和当下的 AI 大模型的发展趋势有关，不少大模型研发商发现，大模型的水平和参数量不一定成正比关系，一方面有边际效益递减的现象存在，100B 的模型很可能只比 10B 的模型好上 20% 而已；另外就是随着训练水平的提高，更小参数的模型也可能比更大参数的模型表现更好，以及针对特定领域的垂直模型虽然参数量不一定很大，但是有所专长，在特定领域表现比通用大模型要好。

这两个信息放在一起，意味着其实也不必执着于当下端侧大模型能不能落地，这其实是循序渐进的软硬件共同进步的过程，未来 16GB 内存手机普及，而端侧大模型不一定要上到 7B 乃至 10B 和 13B 的参数量，只需要 4B 左右就能提供不错体验的时候，就是硬件和软件的双向奔赴，也是端侧 AI 成熟落地的时候。毕竟只能在旗舰手机运行的 AI 不是大家希望的 AI，Alex Katouzian 就描述了这种「双向奔赴」的愿景：

随着 AI 能力逐渐从旗舰层级向中低端迁移，厂商也需要谨慎控制因此带来的成本增加。

我们希望在这些模型不断提升准确度的同时，占用的内存空间会逐步减少，我们与模型提供商合作就是为了达到这一目标，我们的模型量化工具也在不断进步，从而实现成本和性能之间的平衡。

文 | 刘学文

给手机终端侧 AI 多点耐心

推荐体验

相关资讯

ChatGPT推动AI芯应用，算力提升终端多点开花

全球首个运行在Android手机上的Stable Diffusion终端侧演示

天风证券：ChatGPT推动AI芯应用算力提升终端多点开花

高通：来自终端AI侧的“云端守望”

终端侧生成式AI离我们还有多远？

近期资讯

雅安泛华工装模具有限责任公司取得便于脱模的冲压成型装置专利，实现模具快速脱模和更安全出料

顺德兆柏电器取得可快速更换模芯的五金模具专利，方便快速更换模芯提高工作效率

天津诺鼎电子取得一种载带成型用具有水冷降温结构的加热模具专利，能够实现模具水冷降温效果

夏津县德泽机械设备配件有限公司取得高效伺服组角机专利，组角效率高

深圳数码模取得连续模传递生产用防变形支撑装置专利，可防止连续模传递生产变形

无锡华美板业取得一种便于取料的不锈钢模板专利，能够方便对不锈钢板进行取出

苏州铭伍金属科技取得一种导向机构及其冲压模具专利，稳定性更好

亿森（上海）模具有限公司取得冲压模具定位装置专利，解决模具偏移问题

爱克（苏州）机械有限公司取得双向导轮座专利，保证滑块移动时的准确性

昆山合德欣取得一种钣金件冲压模具的组装设备专利，能够快速对模具进行安装与拆卸

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响