OpenAI发布了一款新的人工智能工具,可以以惊人的准确度模仿人类的声音。人工智能语音生成器有一系列潜在的应用,包括无障碍服务,但也可能引发对错误信息和其他形式滥用的担忧。
OpenAI上周五分享了这款名为“语音引擎”(Voice Engine)的工具的早期测试样本,该工具使用15秒的语音样本来生成令人信服的语音副本。然后,用户可以提供一段文字,该工具将用人工智能生成的语音阅读。
已经有几种人工智能生成的语音服务可供公众使用,但正如它对聊天机器人ChatGPT所做的那样,OpenAI已被证明特别擅长于获得人工智能工具的广泛采用。
该公司表示,一款支持人工智能的文本转语音工具可以帮助翻译、帮助儿童阅读或帮助失去说话能力的人。但一些怀疑论者担心,这也可能助长虚假信息的产生,或使实施诈骗变得更容易。
OpenAI表示,语音引擎目前只被“一小部分值得信赖的合作伙伴”使用,包括教育和健康技术公司,它将通过他们的测试来确定是否以及如何允许更广泛的使用。据该公司称,这些测试人员已经同意,在未经他们明确同意的情况下,不会重现人们的声音,并向听众清楚地表明,他们听到的声音是人工智能生成的。
OpenAI在一篇博客文章中说:“我们认识到,产生类似于人类声音的语音存在严重风险,这在选举年尤其重要。”该公司承认,随着人工智能生成的音频变得越来越广泛,需要进行重大变革,尽管它不打算立即向公众发布语音引擎。例如,该公司建议逐步取消基于语音的银行账户认证。
OpenAI表示:“任何合成语音技术的广泛部署都应该伴随着语音认证体验,以验证原始说话者是否故意将自己的声音添加到服务中,并制定一个禁止使用的语音列表,以检测和防止创建与知名人物过于相似的声音。”
语音引擎可以使用一种语言的语音样本来创建可以使用多种其他语言的语音副本。
该公司的博客文章包括一个人类阅读一篇关于友谊的文章的音频片段,以及人工智能生成的音频,听起来像是同一个人用西班牙语、普通话、德语、法语和日语阅读同一篇文章。在每个人工智能生成的样本中,原始说话人的语气和口音都被保留了下来。
在Voice Engine预览版发布之际,用户正在等待OpenAI上个月发布的人工智能生成视频工具Sora的公开发布。Sora可以根据文字说明制作逼真的60秒视频,并能够提供多个角色、特定类型的动作和精心制作的背景细节的场景。OpenAI的ChatGPT也可以从文本提示生成图像。
另外,OpenAI还在周一宣布,任何人都可以使用ChatGPT,而无需注册即可使用该服务。