ChatGPT高级语音全量开放:AI实时流畅对话,角色情绪拉满
不用等到秋天,今天凌晨,OpenAI 宣布 ChatGPT 新版高级语音模式将在本周内向所有 Plus 和 Team 用户全量推送。
OpenAI CEO Sam Altman 在 X 平台发文称:
高级语音模式今天正式上线!(将在本周内全量推送)希望你觉得等待是值得的 🥺🫶
不过,新版高级语音模式每天的使用时间也是有限制,并且这个限制也会有所变化,当用户的使用时间剩余 15 分钟时,系统就会发出提醒。
这意味着,想要将其作为 24 小时无话不谈的 AI 密友可能不太现实。
判断你是否已经获得推送资格有两种简单的方法。
第一种,如果获得资格推送,当你首次访问语音模式时,App 中将显示以下通知:
第二种方法则是通过检查语音风格的数量来判断。
此前,ChatGPT 支持五种预设语音风格,但后续由于「Sky」语音风格与「寡姐」的法律纠纷而遭到下架。
今天,OpenAI 一口气推出了五种听起来更自然的全新语音风格——Vale、Spruce、Arbor、Maple、Sol。
OpenAI 官网是这样描述这九种声音的:
Arbor - 随和且多才多艺
Breeze - 生动且认真
Cove - 沉着且直率
Ember - 自信且乐观
Juniper - 开放且乐观
Maple - 开朗且坦率
Sol - 精明且轻松
Spruce - 冷静且确信
Vale - 聪明且好奇
在听完新增的语音风格后,网友们也都是萝卜青菜各有所爱。有的怀念起 「Sky」,有的则已经沉浸在新的语音风格中。目前呼声比较高则是 Sol,你更喜欢哪种音色,也欢迎在评论区分享。
那 ChatGPT 的高级语音模式的效果如何呢?
官方提供了一个示例,当你因为迟到而想真诚地向只会说普通话的奶奶道歉时,你可以借助会说 50 多种语言的 ChatGPT 来实现这一诉求。
你没有听错,ChatGPT 就这样字正腔圆地说出了下面这番普通话:
奶奶,对不起,我迟到了,我不是故意让您等这么久的,我可以怎么补偿您呢?
此外,ChatGPT 的高级语音模式现在还支持设定自定义指令。
OpenAI 员工指出,声音模态(声音的传递方式)包含许多元素,这些元素在文本对话中可能无法体现,比如口音、语调、节奏等。
现在,用户可以通过设置来定制 AI 模型的说话方式,以便更准确地描述用户希望模型如何说话。
她举例称,比如让模型以特定的节奏说话,发音清晰,说话慢,并定期使用用户的名字。她建议从简单的开始,比如让模型知道用户的名字和一些基本信息。
在具体的场景中,用户询问周末可以做什么有趣的事情。ChatGPT 高级语音模式就会根据天气和用户所在地区(海湾地区)提供了一些建议,如徒步旅行、野餐或沿着 1 号公路开车。
又或者,她表示喜欢开车游览风景的想法,并询问应该走哪条路线时,ChatGPT 也能给出周全的计划。
简言之,通过定制模型的语音和交互方式,ChatGPT 高级语音模式就能根据用户的喜好和需求提供具体的建议,并使得交互更加自然和有用。
此外,新版 ChatGPT 高级语音模式的对话速度、流畅度以及口音都得到了较大的改善,做你的外语搭子或许真的值得考虑。
OpenAI 模型设计师德鲁在聊到使用体验时表示,当他在做某件事或不需要与 ChatGPT 交谈时,ChatGPT 会保持安静。
当他有问题时,他会提出问题,然后这个问题可以延伸成一场长时间的对话。
在对话过程中,ChatGPT 的声音会根据谈话的语气进行调整。在他看来,ChatGPT 就像是坐在他旁边的朋友,不仅提供信息,还能进行思想上的交流。
而落到实际也可以尝试用它来练习面试等场景,并且无需担心延迟问题。
德鲁强调「我的意思是,这种延迟非常低,就像和另一个人交谈一样。」
值得注意的是,OpenAI 推出的新版高级语音模式目前还没有向欧盟、英国、瑞士、冰岛、挪威和列支敦士登等地区开放使用。
一石激起千层浪,受波及的网友对此是既愤懑也无奈。
遗憾的是,ChatGPT 的视频和屏幕共享仍旧没上线。
四个月前,这项功能在发布会上惊艳亮相。当时,OpenAI 还向我们展示了如何实时向 ChatGPT 询问面前纸上的数学问题或电脑屏幕上的代码。
目前,OpenAI 尚未明确何时推出该功能。
在发展动辄以天算的 AI 行业中,姗姗来迟的高级语音模式本质上还是一个阉割品。
没有新增过于亮眼的功能,甚至也没有完成五月份发布会上的功能承诺,早有预热的全量推送倒更像定点狙击 Google 新模型的产物。
吊诡的是,OpenAI 字典里的「即将推出」似乎也和我们的不太一样。
有些早已承诺的功能可能意味着明天,也可能是明年。
而如果换个角度想,技术能力过硬的 OpenAI 同时也是一家贩卖想象的公司,我们最期待或许也是他们下一次的挖坑。
毕竟,这已经成为了他们的一种传统,不是吗?
One more thing
OpenAI 官网今天更新了一版关于 ChatGPT 语音模式的 QA 解答,我们也简单总结了一些实用解答,希望对你有所参考。
1、在使用高级语音模式时,你依然可以挂在手机后台继续保持对话。
2、如果你从文本或标准语音模式切换到高级语音模式,请注意,你将无法返回到之前的文本或标准语音对话状态。
3、在车内使用车载蓝牙或免提电话功能时,高级语音对话的体验可能会受到影响,因为目前 OpenAI 还没有为这些设备提供专门的优化。
3、高级语音对话目前还未对 GPTs 开放。你只能与 GPTs 进行标准语音对话。GPTs 拥有自己独特的语音选项,名为 Shimmer。
4、为了尊重音乐创作者的版权,OpenAI 采取了多项安全措施,包括新的过滤条件,以防止语音对话生成音乐内容,包括唱歌。
5、高级语音模式对话本质上是多模态的,转录的文本并不总是与原始对话完全一致。
6、高级语音对话中的音频会与聊天记录一同保留,直到你主动删除。删除后,音频通常会在 30 天内被删除,但在某些特定情况下可能会保留更长时间。
7、OpenAI 表示,默认情况下,系统不会使用你在语音聊天中的音频来训练模型,除非你选择共享这些音频。
8、如果「设置」没有开启「改善所有用户的语音聊天体验」选项,说明你没有共享音频,系统也不会使用你的音频来训练模型。