当前位置:首页|资讯|苹果|OpenAI|谷歌

分析:Siri 13年没有进步,苹果如何与OpenAI和谷歌竞争

作者:鞭牛士发布时间:2024-05-17

鞭牛士报道,5月17日消息,据外电报道,苹果 Siri 的用户可能会同意,自 2011 年 9 月首次推出以来,语音助手并没有取得太大进展。

事实上,在某些日子里,Siri 似乎变得不那么聪明,更容易误解请求或响应迟缓。当然,Siri 并没有达到我们对其进化的最高期望。

这对苹果来说是一个大问题,该公司在语音助手领域处于领先地位,但现在面临着来自微软人工智能合作伙伴 OpenAI 和 Alphabet 旗下谷歌的强大竞争。

周一,OpenAI推出了 GPT-4o,它具有令人印象深刻的合成语音,以及处理图片和维持连续的助理任务流的能力。

谷歌周二发布了最新版本的 Gemini 程序,具有同样令人印象深刻的语音功能。 Siri 可能会被使用 Gemini 的 Google Pixel 手机所取代,但也可能会被非 Apple 设备上的 OpenAI 所取代,包括传闻中的 OpenAI 手机(或者如果微软重振其失败的 Windows Phone 的话)。

然而,Siri 的故事还没有结束。

苹果首席执行官蒂姆·库克在公司全球开发者大会上暗示了下个月即将举行的活动。尽管迄今为止,苹果在人工智能科学领域并不处于领先地位,但它在机器学习研究方面做出了重要贡献,因此值得考虑该公司可能拥有哪些技术。

从最简单的层面来看,有传言称苹果将授权 OpenAI 或谷歌的技术。 GPT-4o 或 Gemini 可能是 Siri 的直接升级,考虑到 Siri 的糟糕状况,这对所有 iPhone 用户来说都是一个推动。

作为任何特定季度排名第一或第二的手机制造商,与获得谷歌 Android 操作系统授权的三星展开竞争,苹果可以为设备上的人工智能用户提供很多东西。

一个能够胜任地遵循顺序步骤的指令的助理可以被指示选择一张我客厅的照片并将其通过电子邮件发送给 Nikki,并附上消息,检查一下新沙发。助理可以在选择一张照片时进行纠正。事实上,我希望它选择另一张图像中有更多沙发的照片。

现代 Siri 还可以遵循模糊的指令,例如下周找个时间让我和 Max 谈谈,甚至在下周安排这三项任务。这些基本的辅助功能远远超出了 Siri 目前的能力,但肯定可以通过简单地更换 GPT-4o 或 Gemini 来实现。

专注于此类多步骤任务——连接我的照片、我的日历、我的旅行应用程序——对苹果来说是一个优势,因为它拥有应用程序商店,可以将人工智能助手连接到第三方应用程序。

这是人工智能的一个新兴领域,称为人工智能代理。这个想法是,人工智能模型只是许多其他程序所有功能的友好界面。如何做到这一点是一个严重的安全挑战,因此恶意代码无法接管手机上的所有功能。这是苹果可以创新的领域。

就设备体验而言,还有其他方面需要升级或改进。

例如,GPT-4o 或 Gemini 在 iPhone 上使用的任何照片都将使用内置相机。苹果可能会擅长将相机用作人工智能伴侣,例如让助手帮助用户在拍摄多重曝光实时照片时选择最佳帧。更好的是,告诉我这个构图有什么问题是一些人在按下快门按钮之前可能想要实时获得的摄影傻瓜建议。

更好的是,如果有一个 Siri 助手,人们可以简单地用命令给我们三个人拍一张照片并修复背光,然后让它自动调出相机并通过一些自动曝光调整来拍摄集体照片。

对于许多设备上的数据来说也是如此,例如搜索语音邮件消息,这些数据目前以文本形式存在,相当平庸。查找人们海量照片的内容是谷歌所展示的,苹果也可以使用该技术来进行照片搜索。 查找我和朋友在户外的所有照片是一种标准查询,如今 Siri 甚至无法实现。

苹果控制着数亿 iMessage 用户,过去这一直是一个适度创新的领域,例如Memojis,即体现一个人记录的语音消息的动画。谷歌已经展示了仅根据一张照片创建一个人讲话的视频剪辑的能力。

苹果可以做类似的事情,将 Memojis 升级为个人头像,看起来就像自己一样,并且具有逼真的动作和声音同步。苹果将受益于在初始设置阶段使用前置 FaceTime 摄像头以不同角度捕捉个人的多次曝光。

在这个领域,苹果有能力与其硬件合作伙伴合作,使镜头和传感器尽可能好。

下一个层次是将人工智能融入客户数据中。包括GPT-4o和Gemini在内的神经网络因所谓的幻觉而臭名昭著,它们似乎自信地断言谎言。针对这种混乱情况的一种解决方案是将程序建立在有效数据的基础上。

苹果的优势在于在设备和云端都拥有大量用户数据。如果这些助手之一连接到联系人、日历、文档和网络数据,该程序将寻求具有真实背景的权威答案。

诸如我最近在 FastCompany 中读到的任何内容是否与我写的文档或我的联系人或电子邮件中的人相匹配之类的查询代表了一种雄心勃勃的深入研究,但如果数据集成精心设计,没有什么是不可能的。

一个助理可以总结我设备上的所有电子书,并给我一个简短的概述,它将把瓦纳瓦尔·布什 (Vanavar Bush) 在他1945 年著名文章《正如我们所想》中所描述的那样视为人们记忆的延伸。

苹果的生物识别以及健康和健身数据可用于创建任意的健身计划。人们可以提出一些巨大的问题,例如,考虑到我的年龄、体重、身高、心率和饮食,以及我最近的步数历史和骑自行车历史,接下来几个月最适合我的锻炼计划是什么?借用微软的一个页面,这成为了一种健康和健身的副驾驶。

苹果超越了开箱即用的数据所能完成的任务,它有机会开创一个令人着迷的人工智能新兴领域,即设备端训练。

GPT-4o 和 Gemini 等神经网络是在实验室的初始阶段(称为训练)开发的。神经网络有大量成功的例子,并且其结果会被调整,直到产生最佳答案。然后,该训练就成为神经网络问答的基础。这是使用地球上最强大的计算机来完成的,其计算能力远远超过个人手机的计算能力。

这种人工智能训练的问题在于它是通用的。它是根据从网络或各种出版书籍中抓取的大量页面中的大量数据构建的。结果,它不是那么个人化。如果我想写一篇文章,GPT-4o 和 Gemini 可能充满了简·奥斯汀和保罗·奥斯特如何写作的例子,但他们对我作为作家的风格一无所知。

苹果有机会在个人层面上深度个性化这些神经网络的功能,这是以前从未实现过的,因为这些程序从未以个人方式对个人数据进行过训练。 (OpenAI 收集用户数据进行训练,大概就像 Google 一样,但由于两者都没有通过生成个性化结果来闭环,所以最终结果永远不会非常个人化。)

一种方法是微调Apple 可能从 OpenAI 或 Google 获得的许可,方法是将一点额外的数据应用到完成的 GPT-4o 或 Gemini,以便它们经过改进,更倾向于个人偏好。这是否可能将取决于苹果与 OpenAI 或谷歌之间的自有品牌交易(如果有)的条款。这两家供应商可能会施加限制,阻止苹果修改其神经网络,就像谷歌不允许苹果修改在 iPhone 上运行的谷歌搜索结果算法一样。

苹果也可以单打独斗。苹果迄今为止最有趣的研究工作(至少是公开披露的)是对客户端设备本身进行一些训练。由于所需的计算预算,这绝非易事。

苹果可以采用一些以源代码形式免费共享的神经网络,即所谓的开源人工智能,并在人们四处走动、说话、打字和拍照时训练它们。任何一方都可以修改开源程序。此类程序无法完成 GPT-4o 和 Gemini 可以做的所有事情,但它们可以通过更加专注来完成更重要、更个性化的事情。

由于训练神经网络需要大量的计算能力,苹果可以将工作分配给 iPhone 中的A 系列芯片和在云数据中心工作的自己的芯片,有传言称苹果正在开发更强大的云数据中心芯片。人工智能处理能力。

如果您根据一个人不断更新的设备数据来训练神经网络,您能做什么?

一个简单的例子是通过为神经网络提供更多有关图像内容的上下文来提高照片分类。这不是您正在查看的照片中的“猫”,而是您的猫,与您拍摄的许多其他照片类似,以猫的即时相册的形式呈现给您,类似于苹果今天在识别照片中的面孔时所做的事情。

走过艺术画廊时,如果您拍摄一幅画的照片,您的手机可能会想起该艺术家与您上个月在博物馆拍摄的某些东西之间的联系。

甚至愚蠢的例子也比比皆是。 创作一张我上周看到的梵高画作中的猫的混搭图片是一种新奇的东西,最初可能会成为增强版 Siri 的病毒式传播功能。

在更复杂的层面上,如果我从不同角度拍摄五张沙发照片,神经网络可以被训练来理解沙发的物理三维结构,而 GPT-4o 和 Gemini 则不会,因为它们的数据是比较分散,不具体。这种在本地训练的人工智能模型将开始了解物理世界中的物体,这对于从产品分类到家居装修的任何事物都具有巨大的价值。

一个更有趣的例子是让 Siri 助手进行类似“推理”的处理,例如,它会预测您的旅行计划的工作方式。如果你要求 Siri为我查看下个月的旅行优惠,助理可能会注意到你的日历上塞满了约会,并建议采取不冲突的行程。

一个更复杂的例子是从各种社交媒体应用程序中获取信息,人们使用这些应用程序将您在 Facebook、Pinterest 和 X 上“喜欢”的事物之间的点联系起来。

这些应用程序存在于一个孤岛中,但它们有话要说。关于您可能购买的消费品的偏好或您可能关注的政治问题。此类信号可用于训练神经网络,以引导用户查看服务上出现的类似帖子。

下一阶段是人工智能界所谓的“联合学习”,其中数亿 iOS 设备用户都贡献一些数据,然后将这些数据匿名并聚合以训练神经网络。

我训练 Siri 理解三个维度的沙发可以与其他人的家居陈设进行比较。我在电子书中阅读的所有内容都可以与其他人正在阅读的内容的匿名摘要进行比较。或者我喜欢的社交媒体帖子可以与人们正在阅读的类似内容进行比较。这里的目标是将您喜欢的内容与大众的一些智慧融合起来。

最后一点提出了许多棘手的问题。目前尚不清楚社交媒体巨头将允许苹果公司获得多少访问权限。当个人用户将自己的习惯和兴趣与数亿其他人的习惯和兴趣进行比较时,他们的感受如何还有待观察。

但显然,苹果在个人设备可以通过多种方式集中精力使用生成式人工智能来回答问题或制作图像时,有很多机会。这实际上就是人们通常所说的“人工智能电脑”,这种设备不再关注通用互联网,而是关注人们对个人追求感兴趣的事物。

苹果在设备硬件和软件的控制以及云计算业务方面具有一定的优势。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1