当前位置:首页|资讯|OpenAI|微软|AI音频

OpenAI语音克隆新技术,企业可用微软声音克隆

作者:等保测评办理发布时间:2024-08-26

OpenAI 在官方博客分享一个名为“Voice engine 语音引擎”模型的预览,该模型仅需使用单个 15 秒音频样本,然后通过文本输入来生成与原始说话者非常相似的自然语音,即,我们经常提到的“AI语音克隆”技术。

“Voice Engine”在音色、语音连贯性以及自然度、清晰度方面在目前的同类产品中“遥遥领先”。

企业如何合规、稳定使用微软语音服务及OpenAI?

出于合规角度,建议国内企业可以选择微软的Azure OpenAI服务来使用接口。

通过微软官方合作伙伴获取服务,企业用户可以合规、稳定地使用ChatGPT,满足国内发票需求,同时也能解决连接不稳定/响应速度慢/并发配额低等问题。

作为微软的合作伙伴,全云在线可为企业开通绿色申请通道!包括最新版本VALL-E 2、GPT-4o、Dalle-3等,只要企业有需求,全云在线都能协助快速开通!

参考链接:https://azureopenai.cloudallonline.com/?zxwsh80
企业微软 Azure OpenAI 免费试用申请

OpenAI于 2022 年底开始开发Voice Engine,并用它来支持text-to-speech文本转语音 API 以及 ChatGPT Voice and Read Aloud语音和朗读中可用的预设语音。与此同时,由于考虑到克隆合成语音滥用的可能性,采取谨慎和知情的方式来进行更广泛的发布。OpenAI希望就合成声音的负责任部署以及社会如何适应这些新功能展开对话。

早期应用

为了更好地了解这项技术的潜在用途,OpenAI开始与一小群值得信赖的合作伙伴私下测试它,该小组开发的应用程序留下了深刻的印象。这些小规模部署有助于为OpenAI提供方法、保障措施和思考如何将语音引擎用于各个行业的良好效果。一些早期的例子包括:

  • 通过自然、富有感情的声音为无法阅读者和儿童提供阅读帮助。
  • Age of Learning 是一家致力于儿童学业成功的教育技术公司,一直在使用Voice Engine来生成预先编写的画外音内容。他们还使用语音引擎和 GPT-4 创建实时、个性化的响应来与学生互动。
  • age-of-learning-参考音频.mp3,locationsound同期录音网,15秒
  • age-of-learning-物理学科配音.mp3,locationsound同期录音网,29秒
  • 翻译视频和播客等内容,以便创作者和企业可以用自己的声音流利地接触世界各地的更多人。HeyGen 是这一技术的早期采用者,这是一家国内创办的人工智能视觉讲故事平台,他们使用语音引擎进行视频翻译,因此可以将演讲者的声音翻译成多种语言并覆盖全球观众。当用于翻译时,语音引擎会保留原始说话者的语音特色和母语口音。
  • 据说去年短视频疯传的霉霉说中文,郭德纲说英文等都是HeyGen制作的。

同期录音网LS

,赞3

  • 通过改善偏远地区的基本服务交付,覆盖全球社区。Dimagi 正在为社区卫生工作者构建工具,以提供各种基本服务,例如为母乳喂养母亲提供咨询。Dimagi 使用语音引擎和 GPT-4 以少数族的主要语言(包括斯瓦希里语)或更非正式的语言提供交互式反馈。
  • 支持语言表达障碍人群,例如为患有言语障碍的人士提供治疗应用,以及为有学习需求的人士提供教育增强服务。Livox 是一款人工智能替代通信应用程序,为增强和替代通信 (AAC) 设备提供支持,使残疾人能够进行通信。
  • 帮助患有突发性或退化性言语疾病的患者恢复声音。Lifespan 的诺曼·普林斯神经科学研究所是布朗大学医学院一个非营利性卫生系统。他们一直在试点一个项目,为患有语言障碍的肿瘤或神经病因的个人提供语音引擎,恢复了一名因血管性脑肿瘤而失去流利言语的年轻患者的声音项目。
  • lifespan-当下语音.mp3,locationsound同期录音网,30秒lifespan-语音样本.mp3,locationsound同期录音网,15秒lifespan-AI语音.mp3,locationsound同期录音网,16秒

构建安全语音引擎

OpenAI特别提到了AI语音的安全性问题,生成难以分辨的语音存在严重风险,这在“选举年”尤其值得关注,正在与来自政府、媒体、娱乐、教育、民间社会等领域的美国和国际合作伙伴合作,以确保在建设过程中吸收他们的反馈。

  • 为当前Voice Engine合作伙伴制定了严格的使用政策:
  • 禁止在未经同意或合法权利的情况下冒充其他个人或组织;
  • 需要原始发言者的明确和知情同意;
  • 不允许开发人员为个人用户创建自己的声音;
  • 必须公开听到的声音是人工智能生成的。
  • OpenAI还实施了一套安全措施,包括添加水印以追踪语音引擎生成的任何音频的来源,以及主动监控其使用方式。
  • 另外对语音技术的广泛部署伴随着语音认证,以验证原始说话者是否有意将其语音添加到服务中,以及禁止语音列表,以检测并防止创建过于相似的语音添加到公众人物。

展望未来

“语音引擎 Voice Engine”是OpenAI致力于了解技术前沿并公开分享人工智能的承诺的延续。根据对人工智能安全的态度和自愿承诺,选择预览但目前不广泛发布这项技术。希望语音引擎的这次预览既能强调其潜力,又能激发增强社会抵御力的需求,以应对越来越令人信服的生成模型带来的挑战。具体来说,鼓励社会采取以下措施:

  • 逐步淘汰基于语音的身份验证作为访问银行账户和其他敏感信息的安全措施
  • 探索保护人工智能中个人声音使用的政策
  • 教育公众了解人工智能技术的能力和局限性,包括欺骗性人工智能内容的可能性
  • 加速开发和采用追踪视听内容来源的技术,在真人或人工智能互动时始终清晰可见

OpenAI还提到,重要的是世界各地的人们都了解这项技术的发展方向,无论最终是否广泛部署它。

这意味着未来很有可能人类都不再将语音作为识别其它人真实性的一个感知手段,这不仅对创作甚至对人类和社会发展都产生深远影响。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1