当前位置:首页|资讯

Apple Intelligence 中文版将于明年推出,它与其他端侧 AI 模型有何重要区别?

作者:前数码玩家发布时间:2024-09-12

——从发布会上的2个细节来一窥苹果AI的区别之处。苹果还是苹果,见微知著,细节见真章。


昨天刷到一位手机厂商高管的一条微博,是在看完9月10号的苹果发布会后发出的微博。

图我放在下面了,为了避免争议打码了,只保留内容。

大意是说,苹果和部分手机厂商所做的AI功能看起来是类似的,交互体验也不谋而合,甚至思考逻辑契合,但,有的手机厂商今年就已经上线了部分功能,而苹果的绝大部分功能却要到年底才能发布上线,甚至在部分国家和区域还要到明年才能上线。

某手机厂商高管看完苹果发布会后的对AI功能的点评

从表面看似乎也是,苹果总有部分功能看起来跟其他厂商的功能类似,比如下面这个。

iPhone16系列里预置的新功能,叫“Photographic Styles”(摄影风格),下图图3里有标示,cozy风格,把一张阴天拍摄的照片换了个风格,看起来就有艺术感了。

尽管这是优化了整个图像处理管线后实现的功能,但从表面看似乎就是换了个色嘛,地面植物看起来不一样,我们姑且把它称之为“魔法换地”。

从功能的相似程度看,2019年6月的时候小米公布了魔法换天功能,而比小米这项功能还早几年的独立的“vivo摄影”App里也有类似功能,叫“魔法天空”。二者的实际效果都类似于滤镜效果,并且需要用户自己手动选择滤镜强度,为此小米刚发布这项功能的时候,两个品牌的部分粉丝和媒体还在网上有过一阵口水仗,不信你搜这个功能的标题还能搜到些新闻......

5年前,AI概念要是有现在这样流行,我估计两家的魔法功能都得叫“AI换天”或者“AI天空”。

扯远了,言归正传,功能的相似性,说明用户的需求是类似的,但是以什么视角去综合解构用户的需求,为满足用户的表面和潜在需求,又能将新功能做到什么程度,就很考验各个厂商的功力了,AI功能自然也不例外。

我为什么贴出了上面这条微博呢?请继续往下看。

苹果的“魔法换地”(摄影风格)1
苹果的“魔法换地”(摄影风格)2
苹果的“魔法换地”(摄影风格)3

看到这条微博的时候,一看到“AI”俩字儿,结合这个品牌目前已经上线的、强推的功能,我自然就想到了AI消除功能,然后又想起了苹果这次iPhone16系列发布会介绍“AI消除”时的一个细节,这个细节体现出来了为啥苹果的AI跟其他厂商做的不一样,以及,让我后来想明白了,为啥它功能还没实际上线,就要先给自己的AI起个品牌名,专门叫Apple Intelligence。

苹果给这项“AI消除”功能起名就叫“Clean Up”(消除),并没有AI俩字儿,只是发布会上介绍的时候提到,会随着后面的Apple Intelligence一起上线。

为啥它独特呢?因为苹果很自信的提到了,他们的消除功能,在识别和移除照片中的多余物体的时候,还会同时消掉物体在照片所在的光线条件下的反射光和影子,这里看明白了吗?

如果有体验过这项功能的人,应该能理解我说的是什么,以及苹果这个AI消除强在哪里,不明白的请继续往下看。

苹果的AI消除1
苹果的AI消除2
苹果的AI消除3

我在年初三星S24系列发布会暨Galaxy AI功能发布会的B站专栏里,

如何评价 2024 年 1 月 18 日 发布的三星 Galaxy S24系列?

以及单独的动态里都提到,三星在发布会上不老实的一个举动,三星在演示照片的AI消除功能时,照片里跳起来投篮的小哥居然脚下没有任何影子,要么当时打光打的角度比较稀奇,要么就有鬼了。而后来海外博主上手后的实测也表明,三星的AI消除实际不会同时消掉影子。

具体的对比图我就不放了,想对比或了解的可以自行点击下面的B站动态或微博链接进行查看。

三星S24系列发布会上的破绽

微博链接:https://weibo.com/7227870408/NCzuLEzP3

目前已经上线AI消除功能的其他品牌,除非在使用AI消除的时候,手动把特定的阴影部分一并圈起来执行消除,才可能获得比较好的效果,用户要是在使用的时候没有留意到那些阴影,所谓的“AI”是压根不会处理这些不自然的阴影的,因为这类模型都是单纯基于所圈选的区域周围的像素去识别和模拟生成的,并没有真正叠加对照片内的场景和物体周围环境的识别结果进行处理,我想这其中既有算力的不足,更有厂商或合作方的识别算法能力先天不足的因素。

就目前来说,哪家敢打包票说自己的AI消除能同时智能消除物体阴影的?除苹果外我还没见过。当然,你可以说苹果的AI功能上线还早呢,确实,但已经上线AI功能的别家,就目前为止,也确实还不敢在消除阴影这个细节上打包票,而苹果敢。


写到这里,不妨再贴一个小细节吧,同样可以一窥苹果很重视的Apple Intelligence与其他家AI功能的不同之处。

如何看待苹果研究员发布的ReALM论文?

知乎回答比较详细:

如何评价苹果公司研究员3月29日发布的手机端侧模型论文ReALM,是否会改变端侧大模型的处理思路?

https://www.zhihu.com/question/651519549


半年前我在上面这个回答里贴过关于苹果的一篇端侧AI模型ReALM的论文思路的介绍,ReALM的思路是以一种全新的模型,来将所有带屏幕的设备上显示的一切UI元素及其交互元素(文本内容、图像、也包括后台任务进程等等,一切对象在屏幕上的具体位置、功能、表现形式等属性)转译成AI模型可以理解的“元素”,从而能够对应到其“元素坐标”。

打比方,当用户说出一条很口语化的指令,例如“打那个号码”,AI能实时理解,用户指的是屏幕上某块区域的某一串数字,并且要通过拨号应用拨打这串数字。归结成一句话就是,指哪儿打哪儿,因为AI真能理解你指的是这个地方的这个交互元素。

当时看到这篇论文,我就觉得这篇论文有一种给业界带来全新思路的感觉,是一条是很少有人走过的路。篇幅所限,我说的过于简略,原文上面已经贴了,感兴趣的可以点击链接去查看。

我原本以为这项功能还只是在研究阶段,没想到仅仅半年之后,在iPhone16系列的发布会上就被苹果提了一嘴(见下面例子),我感觉新版Siri的这个口语化交互能力,就用到了上面的这个模型,只是真正上线还需要继续等很久。


下面这三张图里的场景大致是,朋友A跟B发消息,约在健身房见面,顺便提到,自己昨天听着波兹·马龙(Post Malone)的新专辑,创造了新的个人硬举(撸铁)记录。

从截图来看,朋友B应该这时候戴着耳机,Siri用语音播报的这条短信消息,这时候如果朋友B对这个专辑挺感兴趣,就可以直接跟Siri说,"Play That"(播放它,即播放这个音乐专辑)。

这就是很生活化且口语化的场景。其他家已发布的AI功能有做到这个顺滑程度吗?印象里还没有,一般都是要等语音助手播放结束后,重新唤起语音助手,然后下达指令。

当然,还是那个问题,苹果还没发布,但它已经敢于“吹牛”了,其他家目前还没敢吹到这个程度。

Siri会识别屏幕上的内容信息并理解用户的口语化指令1
Siri会识别屏幕上的内容信息并理解用户的口语化指令2

Siri会识别屏幕上的内容信息并理解用户的口语化指令3

回到开头的问题,Apple Intelligence 中文版将于明年推出,它与其他端侧 AI 大模型有何重要区别?

无论是英文版还是中文版的Apple Intelligence,我相信在基础功能方面的AI识别能力是一致的,它与其他端侧AI大模型从思路上来说都是要当用户的个性化助理,但这个助理的能力水平恐怕确实是不一样的。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1