文 | 乌鸦智能说
自苹果彻底放弃自动驾驶以来,所有人都在关心对这个全球最大终端厂商,将以何种姿态拥抱生成式AI。今年3月,苹果一度传出正与谷歌进行大模型合作谈判。
如今,情况发生了变化。据彭博社记者 Mark Gurman 援引知情人士消息,苹果即将与 OpenAI 达成合作协议,将 ChatGPT 整合到 iOS 18 操作系统。
有趣的是,在苹果与OpenAI即将达成合作的同时,双方也将AI语音助手展开竞争。
据外媒The Information今日报道,OpenAI正在构建具备音频和视觉理解能力的AI语音助手,其中一些功能已经开始向客户展示,可能在下周的发布活动中预览。而苹果也预计将在下个月的年度开发者大会上宣布对其 Siri 语音助手进行升级,使用大型语言模型来生成对用户查询更复杂的响应。
OpenAI与苹果同时瞄上了AI语音助手,并非偶然。随着生成式AI带动自然语言的崛起,语音交互在硬件交互里的权重得到大幅提升。这也体现在此前发布的多个AI硬件上。
从这个角度上说,布局AI语音助手,也算是OpenAI在AI硬件布局里的一次占位。
01OpenAI与苹果合作接近达成
根据协议,OpenAI 协议将为苹果公司能够提供一款流行的聊天机器人,作为其计划在下个月宣布的一系列新人工智能功能的一部分。
这意味着,OpenAI或将取代谷歌,成为苹果大模型领域的合作伙伴。今年3月,据彭博社报道,苹果正在与谷歌进行谈判,计划将谷歌的Gemini人工智能引擎集成到iPhone中,以支持今年iPhone软件中的一些新功能。但据知情人士披露,这些讨论尚未达成协议,但仍在进行中。
截至目前,对于苹果即将与 OpenAI 达成合作协议,苹果、OpenAI 和谷歌的代表拒绝置评。
事实上,随着苹果与 OpenAI 的渊源由来已久。早在去年年初,苹果公司负责软件业务的高管们经过深思熟虑后,就决定为智能虚拟助手Siri进行“大脑移植”。此前,克雷格·费德里吉(Craig Federighi)和约翰·詹纳安德里亚(John Giannandrea)等苹果高管仔细体验了OpenAI的聊天机器人ChatGPT,随后作出了上述选择。
据两名熟悉苹果内部计划的知情人士透露,ChatGPT的出色表现,尤其是其背后强大的生成式人工智能支持,让Siri显得黯然失色。ChatGPT不仅能够写诗、编写计算机代码,还能回答复杂的问题,这一切都彰显出其超越Siri的先进性和实用性。
与OpenAI的合作,可以确保苹果能够迅速提供具有竞争力的人工智能系统,以挽回其在AI手机领域的落后地位,也为其重新发力人工智能创造时间。
对OpenAI来说,拿下苹果的好处就更直接了。作为全球智能手机的主导者,苹果拥有全球最大的终端用户,iOS系统内拥有20亿全球最高质量用户。这些设备为OpenAI的大模型落地端侧提供了入口,也会在后续转化为新商业价值。
截至目前,对于苹果即将与 OpenAI 达成合作协议,苹果、OpenAI 和谷歌的代表拒绝置评。
02激战AI语音助手战场
随着自动驾驶研究项目的取消,苹果正在全面转向人工智能。除了自研大模型外,Siri的优化也是其AI布局里的重要一环。
Siri是苹果于2011年推出的iPhone虚拟助手,多年来一直局限于对个人请求的回应,且常常难以维持对话的连贯性,甚至频繁误解用户的问题,地位尴尬。尤其当ChatGPT展现出,更高的智能水平后,Siri处境显得更加尴尬。
据三位熟悉Siri改进工作的人士透露,苹果并没有急于推出一个能写诗或进行复杂对话的聊天机器人,以与ChatGPT等竞争对手直接抗衡。相反,他们专注于提升Siri在现有任务上的表现,如设置计时器、创建日历约会、向购物清单中添加物品等。
为了强调Siri的竞争优势,苹果计划凸显其比竞争人工智能服务更加私密的特性。Siri将在iPhone上本地处理用户请求,而非通过远程数据中心处理。这样的好处在于,不仅能够提升用户数据的安全性,还能节省资金。
知情人士还透露,改进后的 Siri 将于今年 6 月份的 WWDC 大会亮相。新 Siri 的对话性更强、用途更广,其 Siri 的底层技术将包括一个新的生成式 AI 系统,支持聊天功能,而不是一次回答一个问题。
在苹果升级Siri的同时,OpenAI也被爆出正在开发AI 语音助手。据报道,OpenAI 正在开发 AI 语音助手,该技术能够使用声音和文本与人交谈,同时识别物体和图像。
据The Information报道,阿尔特曼的终极目标是开发出类似电影《她》(Her)中,可高度响应的虚拟助手,提升苹果Siri等现有语音助手的可用程度。
目前,OpenAI 已经有软件可以转录音频并将文本转换为语音,但这些功能是通过单独的对话式人工智能模型提供的,而新模型将这些功能结合在一起。
据两位见过这项新人工智能的人士透露,ChatGPT 的开发者已经向一些客户展示了这些能力,其中包括比其现有产品更好的逻辑推理能力。比如,新软件的音频功能可以帮助这些代理更好地理解呼叫者声音的语调或他们是否在提出请求时带有讽刺意味。
据一位使用过它的人士透露,目前尚不清楚 OpenAI 何时会将新功能提供给付费客户,但最终计划将其作为免费版本的聊天机器人 ChatGPT 的一部分。
从目前看,这一功能与外界见面的时间可能比想象得更早。今天早上,OpenAI宣布将于美国时间13日上午10点在官网直播,演示ChatGPT、GPT-4的更新内容。根据报道,AI语音助手的部分功能可能将在下周的发布活动中得到展示。
03为什么都看上了AI语音助手?
OpenAI与苹果同时将注意力集中到语音助手上,并不是偶然。
在OpenAI看来,具有视觉和音频功能的AI语音助手具有像智能手机一样的变革性潜力,理论上其可以做到一系列现在的AI助手无法做到的事,比如充当论文、数学问题指导老师,或是翻译交通标识、帮助解决汽车故障等。
而对苹果来说,在AI硬件落地路线尚不明确的当下,利用生成式AI对原有功能进行升级,可能是最为稳妥的方式。改进Siri本身,也能够给用户提供更自然的对话能力和更加个性化的用户体验。
更重要的是,从现有已经发布的AI硬件看,尽管设计理念和形态不尽相同,但都有一个共性:在交互过程中,语音交互的权重得到大幅提升。
以主打“个人助理”的Ai Pin和Rabbit R1为例,在很多使用场景下,两者服务指令的输出都是通过聊天方式完成,从简单的咨询意见、回复消息、识图总结、播放音乐、实时翻译,再到复杂而具体的零碎任务都能完成。
而作为记忆增强设备的Tab和Rewind 吊坠,则将这一点体现得更为明显,两者本质上都属于随身录音设备,都是以一个麦克风打天下,能全天候、不间断地倾听你和身边人聊到的一切内容,并通过 ChatGPT 转录对话内容,再通过 AI 进行分析和整理。
几乎所有人都把交互创新作为AI硬件的重要特征,这并非毫无道理。其逻辑在于,过去用户与软件的交互是对象和命令的方式,比如Photoshop就是一个窗口一个指令,而到了AI时代,用户用自然语言向Midjournery描述你的想象,它就能给你生成图。也就是说,从互联网时代到AI时代,交互的逻辑发生了根本性的变化:从对象和命令变成自然语言。
沿着这个逻辑,不难想象,随着短时间 AI 的能力越来越强,音频的交互变得越来越靠谱,语音交互的频次将越来越多。尽管目前受限于模型性能等诸多因素,在很多场景下,语音交互效果并不尽如人意。
但随着模型性能的升级,以及AI语音助手的迭代,消费硬件里语音交互的权重提升是一个必然趋势。正如比尔盖茨对 AI 时代展望时所说,
“如今在电脑上执行任何任务,都必须告诉通过 App。你可以用 Word 或者 Google 文档来写商业计划书,但它们却无法帮助你发送电子邮件、分享自拍、分析数据、安排聚会或购买电影票。但是在未来五年内,这种情况将完全改变。您不必为不同的任务,而使用不同的 App,你只需用嘴说出来,告诉你的设备你想做什么就行。”