OpenAI推出高级语音模式：提供更多声音和新外观

作者：鞭牛士发布时间：2024-09-25

鞭牛士报道，9月25日消息，据外电报道，OpenAI于周二宣布，将向 ChatGPT 的更多付费客户推出高级语音模式 (AVM)。该音频功能使 ChatGPT 的对话更加自然，将首先向 ChatGPT 的 Plus 和 Teams 层级的客户推出。

企业和教育客户将于下周开始获得访问权限。

作为此次发布的一部分，AVM 的设计也进行了改进。该功能现在由蓝色动画球体表示，而不是 OpenAI 在 5 月份展示该技术时展示的动画黑点。

当 AVM 可供用户使用时，用户将在 ChatGPT 应用程序中的语音图标旁边收到一个弹出窗口。

本周，Advanced Voice 将在 ChatGPT 应用程序上向所有 Plus 和 Team 用户推出。

在您耐心等待的同时，我们添加了自定义指令、记忆、五种新声音和改进的口音。

它还可以用 50 多种语言说“抱歉我迟到了”。pic.twitter.com/ APOqqhXtDg

— OpenAI (@OpenAI) 2024 年 9 月 24 日

ChatGPT 还新增了五种可供用户尝试的新声音：Arbor、Maple、Sol、Spruce 和 Vale。这样 ChatGPT 的语音总数就达到了 9 种（几乎与Google 的 Gemini Live一样多），此外还有 Breeze、Juniper、Cove 和 Ember。您可能会注意到，所有这些名字都受大自然的启发，这可能是因为 AVM 的整个目的是让 ChatGPT 的使用感觉更自然。

阵容中缺少 Sky 的声音，这是 OpenAI 在春季更新中展示的声音，这导致斯嘉丽约翰逊 (Scarlett Johansson) 提出法律威胁。这位在故事片《她》中扮演人工智能系统的女演员声称 Sky 的声音听起来与她自己的声音有点太相似了。OpenAI 迅速删除了 Sky 的声音，称它从未打算模仿约翰逊的声音，尽管当时有几名工作人员在推文中提到了这部电影。

此次发布中缺少的另一个功能是四个月前 OpenAI 在春季更新中首次推出的 ChatGPT 视频和屏幕共享功能。该功能旨在让 GPT-4o 同时处理视觉和听觉信息。

在演示过程中，OpenAI 的一名工作人员展示了如何在你面前的一张纸上向 ChatGPT 实时询问数学问题，或者在电脑屏幕上编写代码。目前，OpenAI 尚未提供何时推出这些多模式功能的时间表。

尽管如此，OpenAI 表示，自发布 AVM 的有限 alpha 测试以来，它已经取得了一些进步。据称，ChatGPT 的语音功能现在能够更好地理解口音，该公司表示，其对话也更流畅、更快速。在我们对 AVM 的测试中，我们发现故障并不罕见，但该公司声称现在情况已经有所改善。

OpenAI 还将 ChatGPT 的一些自定义功能扩展到 AVM：自定义指令，允许用户个性化 ChatGPT 对他们的响应方式，以及记忆，允许 ChatGPT 记住对话以供以后参考。

OpenAI 发言人表示，AVM 尚未在欧盟、英国、瑞士、冰岛、挪威和列支敦士登等多个地区推出。