去年出现了人工智能工具 (AI),可以根据文本提示创建图像、艺术图像,甚至视频。
人工智能写作也取得了重大进展,OpenAI 的 ChatGPT 引起了人们对写作未来的广泛兴奋和恐惧。
2023 刚过去几天,人工智能的另一个强大用例已经成为人们关注的焦点——一种可以无可挑剔地模仿人的声音的文本转语音工具。
由微软开发的 VALL-E 可以录制任何人的三秒钟声音,并克隆该声音,将书面文字转化为语音,根据文本的上下文,生成的音频具有逼真的语调和情感。
经过 60,000 小时的英语演讲录音训练,它可以在“零镜头情况”下发表演讲。
在康奈尔大学发表的一篇论文中介绍 VALL-E 时,开发人员解释说录音数据由 7,000 多个独特的说话人组成。
人工智能在 2023 年的挑战:ChatGPT 4
该团队表示,他们的文本转语音系统 (TTS) 使用的数据是现有 TTS 系统的数百倍,克服了零样本问题。
该工具目前不供公众使用——但它确实引发了安全问题,因为它可能被用来生成来自任何人声音的任何文本。
VALL-E 的创建者提供了一个演示,展示了一些三秒的音频样本和文本到语音的演示,并正确地模仿了音频样本。
微软在人工智能方面投入了大量资金,并且是 OpenAI 的支持者之一,OpenAI 是 ChatGPT 和 DALL-E(一种文本到图像或艺术工具)的幕后公司。
这家软件巨头在 2019 年向 OpenAI 投资了 10 亿美元,本周一份报告称它正在考虑向该公司再投资 100 亿美元。
潜在用途
这项技术最明显的用途之一是为在生命中某个时刻失去说话能力的人发声。即使是带有主体声音的超短录音也可以用来重建极其自然的人造声音。有语言障碍的人也可以使用它——他们可以输入他们想说的话,Vall-E 可以将其转换成语音。