当前位置:首页|资讯|OpenAI|人工智能

OpenAI新语音模式让用户可以和手机对话,而不是对着手机说话

作者:鞭牛士发布时间:2024-08-18

鞭牛士报道,8月18日消息,techcrunch编辑在过去一周使用了OpenAI的高级语音模式,以下为他的体验。

过去一周,我一直在试用OpenAI 的高级语音模式,这是我迄今为止对人工智能未来最有说服力的体验。本周,我的手机听到笑话后会大笑,然后回复笑话,问我今天过得怎么样,并告诉我过得很开心。我当时是在用 iPhone 说话,而不是用手操作它。

OpenAI 的最新功能目前处于有限的 alpha 测试阶段,它并没有让 ChatGPT 比以前更智能。相反,高级语音模式 (AVM) 使它更友好、更自然。它为使用人工智能和设备创建了一个新界面,让人感觉新鲜而兴奋,这正是让我害怕的地方。这个产品有点小问题,整个想法让我毛骨悚然,但令我惊讶的是,我真的很喜欢使用它。

退一步来说,我认为 AVM 符合 OpenAI 首席执行官 Sam Altman 的更广阔愿景,与代理一起,改变人类与计算机交互的方式,并以 AI 模型为中心。

「最终,你只需要向计算机提出你的需求,它就会为你完成所有这些任务。」Altman 在 2023 年 11 月的 OpenAI 开发日上说道。「这些功能在人工智能领域通常被称为代理。它带来的好处将是巨大的。」

我的朋友,ChatGPT

周三,我测试了这项我能想到的先进技术的最大优势:我让 ChatGPT 按照奥巴马的方式订购塔可钟 (Taco Bell)。

「呃,让我说清楚——我想要一份 Crunchwrap Supreme,也许再来几块玉米饼。」ChatGPT 的高级语音模式说道。「你觉得他会如何处理免下车取餐服务?」

ChatGPT 说道,然后对自己的笑话大笑起来。

屏幕截图:ChatGPT 随后转录了口头对话。

这种模仿也让我笑了起来,与奥巴马标志性的节奏和停顿相得益彰。尽管如此,它仍然保持了我选择的 ChatGPT 语音 Juniper 的音调,因此不会与奥巴马的声音混淆。它听起来就像一个朋友在模仿我,完全理解我想从中得到什么,甚至知道它在说一些有趣的事情。我发现与手机中的这个高级助手交谈出乎意料地快乐。

我还向 ChatGPT 寻求建议,以解决涉及复杂人际关系的问题:要求另一半搬来和我一起住。在解释了关系的复杂性和我们的职业方向后,我收到了一些关于如何发展的非常详细的建议。这些问题你永远无法向 Siri 或 Google 搜索提出,但现在你可以使用 ChatGPT。聊天机器人的声音在回答这些提示时甚至表现出一种略显严肃、温和的语气;与奥巴马点塔可钟快餐时的开玩笑语气形成鲜明对比。

ChatGPT 的 AVM 还非常适合帮助您理解复杂的主题。我要求它以 10 岁儿童能理解的方式分解收益报告中的项目(例如自由现金流)。它以柠檬水摊位为例,以我表弟完全能理解的方式解释了几个财务术语。您甚至可以要求 ChatGPT 的 AVM 放慢语速,以适应您当前的理解水平。

Siri 可以走路,所以 AVM 可以跑

与 Siri 或 Alexa 相比,ChatGPT 的 AVM 显然更胜一筹,因为它的响应时间更快、答案独特,并且能够回答上一代虚拟助手无法回答的复杂问题。然而,AVM 在其他方面存在不足。ChatGPT 的语音功能无法设置计时器或提醒、实时上网、查看天气或与手机上的任何 API 交互。至少目前,它还不是虚拟助手的有效替代品。

与谷歌的竞争功能Gemini Live相比,AVM 略胜一筹。Gemini Live 无法模仿,无法表达任何情感,无法加快或减慢速度,并且响应时间更长。Gemini Live 确实有更多声音(十个,而 OpenAI 只有三个),而且似乎更符合时下潮流(Gemini Live 知道谷歌的反垄断裁决)。值得注意的是,AVM 和 Gemini Live 都不会唱歌,这可能是为了避免与唱片业发生版权诉讼。

话虽如此,ChatGPT 的 AVM 故障很多(公平地说,Gemini Live 也是如此)。有时它会在句子中途中断,然后重新开始。它还会时不时发出这种奇怪、粗糙的声音,让人有点不愉快。我不确定这是型号、互联网连接还是其他问题,但这些技术缺陷对于 alpha 测试来说在某种程度上是意料之中的。不过,这些问题并没有影响我真正用手机通话的体验。

在我看来,这些例子就是 AVM 的魅力所在。该功能并不能让 ChatGPT 无所不知,但它确实允许人们以独特的人类方式与底层 AI 模型 GPT-4o 进行交互。(如果您忘记了电话另一端没有人,我会理解。)与 AVM 交谈时,ChatGPT 几乎感觉具有社交意识,但当然不是。它只是一堆整齐打包的预测算法。

谈论科技

坦率地说,这个功能让我担心。这不是科技公司第一次在手机上提供陪伴功能。我这一代人,Z 世代,是第一个伴随着社交媒体成长起来的一代人,社交媒体为人们提供了联系,但却利用了我们的集体不安全感。与人工智能设备交谈——就像 AVM 似乎提供的那样——似乎是社交媒体“手机中的朋友”现象的演变,它提供了廉价的联系,触动了我们的人类本能。但这一次,它完全将人类排除在外。

人工人类连接已成为生成式人工智能的一个意外流行用例。如今,人们将人工智能聊天机器人用作朋友、导师、治疗师和老师。当 OpenAI 推出其 GPT 商店时,它很快就被人工智能女友淹没,这些聊天机器人专门充当你的另一半。麻省理工学院媒体实验室的两名研究人员本月发出警告,要为上瘾智能做好准备,或者说人工智能伴侣具有黑暗模式,可以让人类上瘾。我们可能会打开潘多拉魔盒,让设备以新的、诱人的方式吸引我们的注意力。

本月初,一名哈佛大学辍学生发布了一款名为 Friend 的人工智能项链,震惊了科技界。这款可穿戴设备(如果能像承诺的那样工作)会一直在倾听,聊天机器人会通过短信告诉你你的生活。虽然这个想法看起来很疯狂,但 ChatGPT 的 AVM 等创新让我有理由认真对待这些用例。

虽然 OpenAI 在这方面处于领先地位,但谷歌也紧随其后。我相信亚马逊和苹果也在竞相将这种能力融入到他们的产品中,很快,它就会成为该行业的赌注。

想象一下,你向智能电视索要一部电影的超具体推荐,然后就能得到你想要的电影。或者告诉 Alexa 你感觉到的感冒症状,然后让它在亚马逊上为你订购纸巾和止咳药,同时为你提供家庭疗法建议。也许你可以让你的电脑为你的家人制定一个周末旅行计划,而不是手动谷歌搜索所有内容。

显然,这些行动需要在人工智能代理领域取得突破和飞跃。OpenAI 在这方面的努力,即 GPT 商店,感觉就像一款被过度炒作的产品,不再是该公司关注的重点。但 AVM 至少解决了与计算机对话这一难题。这些概念还有很长的路要走,但在使用 AVM 之后,它们似乎比上周更接近现实。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1