当前位置:首页|资讯|OpenAI

15秒样本生成乱真语音,OpenAI低调“试听”,建议银行关闭语音认证

作者:未尽研究发布时间:2024-03-30

15秒样本生成乱真语音,OpenAI低调“试听”,建议银行关闭语音认证

OpenAI非常低调地发布了强大的语音模拟和生成技术:Voice Engine (声音引擎)。

“今天,我们分享一些浅见和成果,小范围试听(preview) 一个名为Voice Engine  (声音引擎)的模型,使用文本输入和单个15秒的音频样本,生成的语音听起来自然且与原说话者非常相似。”

这个小型模型仅用15秒的样本,就能创造出富有情感且真实感的声音。预计将会很快用到Sora上配音。

早在2022年底,OpenAI就开发了Voice Engine,用它来支持文本转语音API中的预设语音,以及ChatGPT Voice和Read Aloud。

但是,由于合成语音可能被滥用的风险,OpenAI对更广泛的发布非常谨慎,并且采取了让公众和用户知情的方法。

OpenAI称要负责任地部署这项技术,希望先通过对话探测一下社会的适应能力。

OpenAI并不能确定最终是否发布这一技术,或者在多大范围内发布这一技术。一切都取决于对话和小规模测试的结果。

去年晚些时候,OpenAI开始与一小群值得信赖的合作伙伴私下测试。他们用开发出了非常有意思的应用。OpenAI也想通过这些小规模部署来指导其方法和保障措施,并思考Voice Engine如何在各个行业中得到有益应用。

下面是一些用例:

1. 为无法阅读者和儿童提供阅读辅助。这些声音听起来自然、富有情感,代表的说话者范围,比预设语音更加广泛。儿童教育技术公司Age of Learning一直在使用这项技术生成预写解说词的配音。他们还使用VoiceEngine和GPT-4来创建实时、个性化的响应,与学生互动。

- 参考音频:

- 生成音频:

(Some of the most amazing habitats on Earth are found in the rainforest. A rainforest is a place with a lot of precipitation and it has many kinds of animals trees and other plants. Tropical rainforests are usually not too far from the equator and are warm all year. 

大意:地球上一些最令人惊叹的栖息地位于雨林中。雨林是一个降水量丰富的地方,拥有各种各样的动物、树木和其他植物。热带雨林通常不会离赤道太远,并且全年气候温暖。)

2. 为视频和博客翻译内容,创作者和企业能够以其流利的母语之声触及世界各地的人们。早期采用者之一是HeyGen,这个AI视觉叙事平台与他们的企业客户合作,为各种内容创建定制的、拟人的形象,用于产品营销和演示。他们用Voice Engine进行视频翻译,将说话者的声音翻译成多种语言,触及观众可以遍布全球。Voice Engine保留了原说话者的母语音调:例如,老外的音频样本生成中文,会带有各种老外口音。

- 参考音频:

-生成语音(普通话):

3. 改善偏远地区的基本服务,覆盖全球社区。Dimagi正在为社区卫生工作者构建工具,提供各种基本服务,如为哺乳母亲提供咨询。为了帮助这些工作者提高技能,Dimagi使用Voice Engine和GPT-4,以每位工作者的母语提供互动式反馈,包括斯瓦希里语或像Sheng这样的非正式语言,Sheng是肯尼亚流行的混合代码语言。

4. 帮助语言障碍人群,例如治疗影响说话的病症,增强受教育者的学习。Livox是一个AI替代通讯应用程序,为残疾人提供增强和替代通讯(AAC)设备。使用Voice Engine,他们能够为言语障碍人群提供独特且非机械性的声音,涵盖多种语言。他们的用户可以选择他们感到最自然的声音,对于多语言用户,可以在每种口语中保持一致的声音。

- 参考音频:

-生成语音

(Excuse me can I get your attention? Thankyou for your help. Can we watch a movie tonight? Could you please help me findmy glasses? Thank you for your understanding, it means a lot to me. 

不好意思,我能引起您的注意吗?感谢您的帮助。我们今晚可以看电影吗?你能帮我找找我的眼镜吗?感谢您的理解,这对我意义重大。)

5. 帮助恢复声音,这些患者因突然或退行性言语状况而失去声音。Lifespan的Norman Prince NeurosciencesInstitute是一个非营利性卫生系统,也是布朗大学医学院的主要教学附属机构,正在探索AI在临床环境中的用途。他们一直在试行一个项目,向因肿瘤或神经原因导致言语障碍的个人提供Voice Engine。由于Voice Engine需要的音频样本如此之短,医生能够让一位因脑血管肿瘤失去流利言语的年轻患者的声音得以恢复,使用的是她为学校项目录制的视频中的音频。

-当前音频

-生成音频

(Hi everyone, this is what my voice soundslike using OpenAI's new text to speech model called Voice Engine. I was able touse just 15 seconds of a video that I made for a class project to be thereference audio source for the voice you hear right now. What do you think?

-大意:大家好,这是我使用OpenAI的新型文本转语音模型Voice Engine时的声音。我仅使用了我为一个课堂项目制作的15秒视频作为你现在听到的声音的参考音频源。你们觉得怎么样?)

这次安全第一

OpenAI非常担心生成模拟人类的语音会带来的严重风险,尤其是在选举之年。

OpenAI正在与国内外的政府、媒体、娱乐、教育、民间社会等各个领域的合作伙伴接触,在听取他们反馈的过程是构建应用。

目前测试Voice Engine的合作伙伴,都需要服从OpenAI的使用政策,禁止未经同意或法律授权冒充任何个人或组织。

OpenAI的合作条款要求从原始说话者那里获得明确和知情的同意,OpenAI不允许开发人员为个人用户创建自己的声音。

合作伙伴还必须向他们的听众明确披露他们听到的声音是AI生成的。

OpenAI还实施了一系列安全措施,包括用水印追踪Voice Engine生成的任何音频的来源,并且主动监控它的使用方式。

OpenAI试图建立一个合成语音的使用准则,任何合成语音技术的广泛部署都应该有语音认证,以验证原说话者是否知晓自己的声音被添加到服务中;建立一个禁止声音列表,检测和防止创建与杰出人物过于相似的声音。

OpenAI声称,他们既要探索技术前沿并公开分享AI技术,又要遵守其AI安全的方法和自愿承诺,所以选择了让公众预听,而不是发布这项技术。

OpenAI既要展示VoiceEngine所代表的AI技术的潜力,又要社会加强韧性,应对大模型带来的挑战。

OpenAI建议有关部门采取以下步骤:

- 逐步淘汰以声音为基础的安全认证,例如进入银行账户和获取其他敏感信息。

- 探索保护在AI中使用个人声音的政策

- 教育公众了解AI技术的能力和限制,包括欺骗性AI内容的可能性

- 加速开发和采用追踪音视频内容来源的技术,以便始终清楚你是在与真人还是AI互动

OpenAI自己也不清楚,最终能否真正推出这项技术。

参考:

https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1