如果你像老狐一样关注手机发布会的话啊,就会发现除了处理器、影像、屏幕、系统这些,最近有一个功能各大手机品牌会花很大篇幅去介绍。
但是,如果你买手机,前面的那些软硬件是你会考虑的因素,而 AI 大模型,我想 99% 的人都不会考虑,是吧?
不可否认的是,AI 代表的是未来,而手机厂商都在往这方面投入高额的成本,那现在手机的大模型哪家最好用呢?
我们找来了华为、小米、OPPO 、vivo ,以及在看完别家发布会后,自信心爆棚,又决定召开发布会的魅族,他们的最新款旗舰手机。
看看这五家谁的大模型功能更强。
先介绍一下参数。
vivo X100 和 OPPO Find X7 用的是天玑 9300 , 按联发科的说法,支持最高 330 亿参数的大模型在 端侧运行 。
vivo 宣传手机大模型是端侧 70 亿加云端 700 亿 。
OPPO 这边,安第斯大模型是 70 亿端侧加 1800 亿云端。
华为 Mate 60 Pro 芯片没有侧载大模型,而是通过云端大模型来处理用户需求,华为背后有盘古大模型团队。
小米和魅族采用的高通骁龙 8 Gen3 ,支持端侧 100 亿参数大模型。
魅族的大模型 Flyme AI ,宣传是开放式 AI 。 简单来说,就是自己不开发,跟别的大模型团队合作。
雷军在去年 8 月的发布会上提过小米跑通了 13 亿规模的端侧大模型,但到小米 14 发布时却没有提。
所以,小米 14 、魅族 21 极有可能跟华为手机一样,没有侧载大模型,或者不值一提。
在 AI 设置中,也能找到一些证据,find X7 支持离线图线消除,vivo 支持本地图片风格化和文档总结。
但在 Mate 60 Pro 、小米 14 和魅族 21 里,没有本地大模型的设置。
要说的是,OPPO 的离线和 vivo 的本地是有区别的。
OPPO 即便断网,还 能消除画面物体,vivo 一旦断网,本地大模型不能使用。
以上是各家大模型的基本情况。
从参数来看,OPPO 的云端 1800 亿挺唬人,可是华为有盘古大模型,在大模型技术这一块积累更深,大家觉得谁强?
各家手机厂商对于大模型的运用,都是将大模型融入原来的语音助手中,所以打开方式还是包括语音唤醒、长按电源键唤醒、耳机唤醒。
不过各大厂家也有不同设计,华为和 OPPO 为语音助手提供了快捷方式。
vivo 除了 “ 蓝心小 V “”,还有“ Jovi 语音”,蓝心小 V 是 Jovi 语音功能的一部分。
小米没有 APP ,点进底部搜索栏右侧的小爱同学图标即可进入大模型功能。如果经常使用搜索功能,这样设计很不错。
但某原教旨主义资深米粉同事就表示,这个搜索栏一定要取消,因为用不上还占屏幕。
最好的设计是魅族,长按底部横条 mback 键就能进入语音助手,该方式呼出还支持识屏,在系统如影随形,让人感觉非常简洁。
我知道这里可能有人夸魅族了,但先等等……
魅族还有一个“ Aicy 语音 ”,而在这个 APP 的主页面,却没有语音入口,需要进入下一级菜单才能开启场景化的语言助手功能。
而且,在 Aicy 语音里,Mback 呼出语音助手功能是无效的。
这里的交互逻辑,让人感觉非常疑惑,就像是我们建了一栋房子,一楼没有大门,要从二楼窗户才能进入。
不过我还是要夸一句,魅族的 mback 真的很有灵气。
回归到日常使用体验,我们从日常服务入手,先是最常用的语音助手功能。
比如打开相册,播放音乐,这个语音助手都会,不作演示。
我们现在把对话加长:我想让你帮我打开一些 APP ,首先打开相册。
这里华为小艺、OPPO 小布和小米小爱都能正确识别并打开相册。
vivo 小 V 说超出了理解范围……
魅族小溪也没有打开,但从对话来看,它似乎理解了我的请求,推荐了相册应用。
那咱们再复杂一些,把相册前面“ 打开 ”这个关键词去掉:我想让你帮我打开一些APP,首先是相册。
到这里,小爱同学和小布都失败了,“ 打开一些 ” 成了干扰因素,小爱同学是 APP 请求暂时无法支持,小布已经开始推荐其他 APP 了。
小 V 依然是超出理解范围,魅族理解了,推荐了相册应用, 只有华为成功 。
顺便说一句,在这里,没有大模型的 Siri 也执行成功,小伙伴们可以试一下。
再复杂一点,变成多个 APP :我想让你帮我打开一些 APP ,首先是相册,再关闭,再打开哔哩哔哩。
依然只有华为执行了操作。
可能有人会觉得这样考验语音助手的理解能力没用,是我们在吹毛求疵, 那如果我们要它设置闹钟...
像我这样起床困难户,起床 起码得设置 3 个闹钟吧:请帮我设置明天早上的闹钟,一个七点五十,一个七点五十五,一个八点。
只有小艺三个闹钟全部设置成功,而其他闹钟只会读取一个时间点设置闹钟。
我知道,此刻大家脑海里都是那四个字啊。
就在我惊叹小艺遥遥领先友商如此多时,测试其他 APP 时却翻车了。
比如让它们在美团上找外卖:在美团上搜索蛋炒饭
小 V 能成功识别并找到蛋炒饭,小爱和小布同学能打开美团。
而小艺却无法执行。
可是如果换成京东、淘宝搜索耳机,小艺却能成功。
类似的,在哔哩哔哩搜索央视新闻,小艺和小布会失败,小 V 和小爱同学能成功。
在第三方 APP 执行指令,小 V 是表现最好的。
细心的朋友可能发现了,这里我没提魅族的 “ 小溪 ” ,因为……
总的来说,小艺和小 V 各有胜负,小艺语言理解能力最好,但第三方 APP 操作层面,小 V 表现更佳。
而“ 小溪” 语音助手和大模型好像是分开的,理解了我的指令,但没有操作 APP 的权限。
在计算层面,我们可以用大模型来帮我们做一些简单的计算。
比如我去年真实遇到的一个概率问题,0.975 的 126 次方,这个数据手机助手都能计算正确,通关。
值得一提的是,这个数据前段时间大火的 kimi 计算出来却是错的。
再以常见的鸡腿同笼问题测试,本来我以为大模型解决这类问题已经驾轻就熟啊,没想到有位选手翻车了...
在这道题中:一只笼子关着鸡和兔子,有 76 只腿,26 个头,鸡和兔子分别有多少只?
大部分大模型都算出鸡是 14 只,兔子 12 只,只有小爱同学是错的,计算结果是鸡 23 只,兔子 7 只。
这个结果我们测试了很多次...
更离谱的是,有时小爱同学还会列出二元一次方程式,你以为它这次终于要算对了的时候,他的计算结果把兔子和鸡颠倒了。
此刻,老狐大概体会到辅助一个学渣学习的痛苦了。
不知道雷总怎么看这个结果。
在工作效率方面, 我们作为一个自媒体,最看重的自然是大模型在文稿方面的能力。
如果要让总结一篇稿子的重点内容,它们表现怎样呢?
我们找来了科技狐前段时间阅读量超过百万的一篇文章 。
然而,小爱和小布都没有总结这种长文的能力,不能上传 Word 文档,粘贴文本有字数限制,它俩退出本项考核。
剩下的小 V 、小溪和小艺里,小 V 有些本末倒置,有一半总结是文章引入,后面讨论的内容被一笔带过。相比之下,小溪和小艺总结得明显更全面。
反过来,我又测试了它们写稿子的水平,给出的指令是写一篇关于英伟达历史发展的稿子,然后尴尬的来了。
小布和小溪开头部分高度相似, 还出现了相同的错误。
在关于黄仁勋早期的一段描述,都写到他曾在 1983 年这段时间在加州大学伯克利分校攻读博士学位。
事实上,这段时间,黄仁勋还在读本科。
我猜,他俩同时引用了错误的资料来源,这确实挺让人感到尴尬的。
小艺的稿子就像列重点,记流水账。
小 V 也好不到哪去,几乎每一段都是以年份开头,简单描述该年的公司重大事件。小艺和小 V 的结果都是编年体公司发展史。
想比之下,小爱生成的稿子可以用文采斐然来形容,分列了小标题,有重要产品介绍,有如今行业地位描述,最后还有两段升华。
除了这类科普式稿子,我们还让它们写 了产品推荐稿子,推荐 2000 元价位段手机。
小艺推荐了 3 款手机,其中数据可谓一塌糊涂,红米 note 11 pro 相机和屏幕乱写,reno 5 处理器和屏幕尺寸错误。
更离谱的是,华为畅享 X20 这款手机,市面上不存在,真正存在的机型是华为畅享 20 和荣耀 X20 。
华为和荣耀的关系,可能连大模型都误解了。
唯一值得夸奖的是,小艺是没有私心的,推荐了红米和 OPPO 的产品。
小布和小 V 这俩货私心就比较强了,只推荐自家品牌。
小布把自家 reno5 K 和 A93s 的处理器型号弄错,小 V 在参数上没有出现错误,而且是最新款,但推荐手机简单列几个参数卖点。
不知道大家发现没有,小艺、小布和小 V 不管写的多还是写的少,都只推荐了三款,换到小爱时,它终于推荐了四款手机。
不过,产品参数上依然有错误,自家 note 12 pro 的相机参数错误,iQOO Z6 的充电功率也错了。
魅族小溪参数错误最少,但也没有避免,在 iQOO Z5 这款手机上,原本的屏 幕尺寸 6.67 寸写成了 6.78 寸。
总的来 看,没有值得信赖的大模型。
从文本形式上来看,小 V 和小爱罗列参数的形式不像一篇稿子。
小布和小溪文本看似还像稿子, 但每段推荐文章结构是一样的,先写处理器,在介绍屏幕,接着是影像,最后是电池和充电功率,缺少变化。
小艺的稿子变化多一些,但也是错得最离谱的。
这些大模型的生成结果,没有一个可以用的。
这些稿子都篇幅较短,且推荐机型较少。
我们再加一个条件,把字数扩充到 2000 字:帮我写一篇稿子,选题是 2000 元左右手机推荐,字数在 2000 字左右。
从结果来看,小 V 忽视了字数要求,几乎没有变化。
小爱两次推荐都是 4 款手机,除了 iQOO Z6 没变外,其他机型都发生了变化,为了增加字数,每款机型描述从特点变成了优缺点。
小艺的字数增加不多,机型也没有变化。
小布增加了 2 款机型,字数增多了,但远没有 2000 字。
小溪在没有增加机型的情况下 ,大幅增加了引入和总结篇幅,又加入了推荐原则与标准、购买建议和注意事项两章,来达到字数要求,甚至自己把标题从推荐改成了深度推荐。
看 来大模型,也是懂得水字数的。
总的来说,在文本生成方面,结果都难以令人满意,矮子里我是真拔不出将军。
除了文本,在图像方面,小艺、小溪目前不支持生成图片。
小 V 、小布和小爱支持生成图像。
小爱同学无论画什么场景都维持着色彩浓郁的插画风格。
小布的画面偏向写实。
而小 V 则是各种风格都有。
但在某些描写细致的场景下,大模型并不能按照要求输出图片。
比如描述一个小女孩在卖火柴,小狗在旁边睡着了,给出的结果小女孩都没有在卖火柴。
而且他们 目前都不支持对生成图片进行微调。
以上便是在模型里我们常用的功能体验,由于篇幅的关系,关于翻译、写代码等功能,我们不再介绍。
如果要评价这些手机大模型功能,我们要分开两部分来看。
在语音助手部分,在大模型的加持下,手机对人类的自然语言的理解能力得到明显提升。
所以我们可以让语音助手帮我们做更多的事。
这部分华为手机最好,能够实现一次下达多个指令让它完成,虽然在 美团、哔哩哔哩这些 APP 上失败了,但瑕不掩瑜。
其次是 vivo 、OPPO 、小米,最差的是魅族小溪。
我理解魅族做成开放式设备与他人合作的模式,但在融入手机系统方面确实不尽如人意。
但在生成文本方面,手机大模型离理想效率还有较大差距。
他们生成的文章要点总结还行,写出来的稿子要么满足不了需要,要么错误很多,或者过于简单,离够用还有一段路要走。
值得一提的是,在完成这个项目的尾声,我们再次测试大模型推荐效果时,发现 vivo 的小 V 有了明显进步。
再次让它推荐 2000 元手机,虽然推荐结果还是 vivo 的三台手机,但是文本相比之前已经有了长足的进步,反而成为 5 台手机中生成效果最好的。
虽然 AI 大模型现在还不是消费者购买手机的一个考虑因素,但就像 vivo 一样,整个 AI 领域的技术进步速度令人惊讶, 我相信大模型在未来会有广阔的前景。
智能手机自诞生初期的 1993 年,到迎来爆发的 iPhone 时刻 ( iPhone 3G ) ,整整用了 15 年。
而智能手机上的 AI ,终究会迎来一个 iPhone 时刻。
本文来自微信公众号“科技狐”(ID:kejihutv),作者:老狐,36氪经授权发布。