OpenAI推出语音克隆人工智能模型：可从15秒音频样本模仿任何说话人

作者：鞭牛士发布时间：2024-03-30

鞭牛士报道，3月30日消息，据外电报道，OpenAI 刚刚宣布近期进行了小规模预演一个名为语音引擎的新工具的诞生。

这是一种声音克隆技术，可以通过分析 15 秒的音频样本来模仿任何说话者。该公司表示，它可以生成自然的语音和情感丰富且真实的声音。

该技术基于本公司预先存在的文本转语音 API。自 2022 年以来，这项工作一直在进行中。OpenAI 已经在使用该工具集的一个版本来支持当前文本转语音 API 和 Read Aloud 功能中可用的预设语音。该公司的官方博客上有一堆样本，它们听起来非常接近真实的东西。

OpenAI 表示，他们认为这项技术对于阅读辅助、语言翻译以及帮助那些患有突发性或退化性言语疾病的人很有用。该公司提出了一个布朗大学试点计划该项目通过创建从学校项目录制的音频中提取的语音引擎克隆来帮助患有言语障碍问题的患者。

尽管有潜在的好处，坏人肯定会滥用这项技术来从事一些严重的深度造假蠢事，这已经是一个问题了。考虑到这一点，语音引擎还没有完全准备好迎接黄金时段，因为在全面推出之前必须解决严重的隐私问题。

OpenAI 承认这项技术存在严重的风险，这在选举年尤其值得关注。该公司表示，它吸收了来自政府、媒体、娱乐、教育、民间社会等领域的美国和国际合作伙伴的反馈，以确保产品发布时风险最小。所有预览测试人员都同意 OpenAI 的使用政策，该政策禁止在未经同意或合法权利的情况下冒充他人。

此外，任何使用该技术的人都必须向观众透露这些声音是人工智能生成的。 OpenAI 实施了安全措施，例如使用水印来追踪任何音频的来源，以及对系统的使用方式进行主动监控。当该产品正式推出时，将会有一个禁止语音列表，可以检测并阻止人工智能生成的与名人过于相似的扬声器。

至于何时推出，OpenAI 仍然守口如瓶。TechCrunch 发现了一些潜在的定价数据看起来它会削弱ElevenLabs 等该领域的竞争对手。语音引擎每 100 万个字符的成本为 15 美元，相当于大约 162,500 个单词。这大约是斯蒂芬·金的《闪灵》的长度。这听起来确实是一种预算友好的完成有声读物的方式。营销材料还提到高清版本的价格是其两倍，但该公司尚未详细说明其具体运作方式。

OpenAI 本周有重大动作。它刚刚宣布与其好朋友微软建立另一项合作伙伴关系，共同打造一款名为Stargate的基于人工智能的超级计算机。

据报道，该项目将耗资1000亿美元。