OpenAI语音模型“炸场” 15秒样本即可复刻人声

作者：21世纪经济报道发布时间：2024-04-01

21世纪经济报道记者孔海丽实习生牛淑锐北京报道

继文生视频大模型Sora后，近日，OpenAI终于将按捺许久的语音引擎模型—Voice Engine公之于众。

利用文本输入和单个15秒音频样本，Voice Engine就能生成与原说话者非常相似且情感丰富的自然语音。不过，和文本生成视频模型Sora一样，目前OpenAI只针对少部分内测用户开放Voice Engine。

OpenAI在其官网披露，2022年底，Voice Engine就被首次开发，并已经用它来支持文本转语音API以及ChatGPT语音和朗读中可用的预设语音。但考虑到合成语音被滥用的潜在风险，OpenAI选择了谨慎有序地推进和发布Voice Engine。

近两年，全球生成式AI应用规模呈现爆发式增长。据IDC预测，全球AI软件市场规模有望从2022年的640亿美元增长至2027年的2790亿美元，复合增长率为31.4%。

华泰证券分析师认为，随着基础模型能力优化，多模态应用有望在内容创作、AI教育、虚拟陪伴等场景加速落地。

Voice Engine的问世，解锁了语音模型的更多可能性，例如辅助阅读、视频转译等，也将在发音障碍人群的语言表达上提供有效帮助。

当AI瞄准声音克隆技术

去年，霉霉说地道中文的视频火上微博热搜，而这背后的AI工具来自Voice Engine的采用者之一—AIGC初创公司HeyGen，此话题的阅读量超600万。

通过Voice Engine进行实时转换翻译，说话者将保留原始口音，原语言不仅能转换成中文、英文、日文等各类语言，也能让面部嘴型完美匹配。

除此之外，特朗普随口飙一段中文、郭德纲用英语说相声、蔡明阿姨讲段子的视频也在各大社交平台上广为流传。

Voice Engine的官宣也有迹可循。2024年3月19日，OpenAI已经为“Voice Engine”申请了商标，商标的覆盖范围主要是围绕语音识别、语音合成和语音生成等方面。

谷歌前员工Jonathan Chavez也曾在前段时间透露，OpenAI将在今年推出一款全球最好的个人助理产品，就像钢铁侠中的Jarvis。

果不其然，Voice Engine如期而至，团队还公示了多场景下的内测结果与相关音频。

根据OpenAI的介绍，Voice Engine能够通过自然、富有感情的声音为非读者和儿童提供阅读帮助；可以翻译视频和播客等内容，以便创作者和企业可以用自己的声音流利地接触世界各地的更多人；支持非语言人群和帮助患有突发性或退化性言语病症的患者恢复声音。

OpenAI语音引擎产品团队成员杰夫·哈里斯（Jeff Harris）表示，该模型是根据“许可数据和公开数据的组合”进行训练的。

对于Voice Engine的进展，网友直呼：“人工智能的发展速度令人兴奋，势不可挡。”

从业人士认为，Voice Engine将对播客、配音艺术家、口语表演者、有声书和广告解说员、游戏玩家、流媒体主播、客户服务代理、销售人员等众多职业带来现实影响，这其中也包括就业压力。

大众也期待，当OpenAI的Sora与Voice Engine这两项前沿科技相碰撞，又会擦出什么样的火花，真正意义上的有声AI视频乃至电影短片，是不是也就不远了。

勒紧“深度伪造”的缰绳

对于Voice Engine技术的使用，除了惊喜与赞叹声，也有人提出了质疑，如果这样的技术用于电信诈骗，后果会很可怕。

有在校大学生告诉21世纪经济报道记者，家长曾接到AI伪造学生声音的诈骗电话。

其实，OpenAI去年所发布“可以说话”的ChatGPT版本，长期以来一直为各种企业提供根据配音演员的录音所创建的声音，并没有发布从短视频中复制声音的技术。 OpenAI产品经理杰夫·哈里斯（Jeff Harris）表示，以这种方式复制任何声音的能力是有风险的。

2024年2月，美国曾发生利用AI生成语音影响选民投票事件。据报道，在大选之际，新罕布什尔州的部分选民接到一个神秘来电，电话中酷似美国总统拜登的声音号召他们不要在该州初选中投票。后经证实，该来电是机器人语音电话，并非拜登本人录制。此事件在当时引起了不小的轰动，加剧了人们对竞选“深度伪造”的担忧。

为加强语音引擎的安全构建，OpenAI在官方公告中称，公司正在与来自政府、媒体、娱乐、教育、民间社会等领域的美国和国际合作伙伴合作，以确保在建设过程中吸收他们的反馈。不过，OpenAI与这些合作伙伴针对语音引擎的业务进展，需要原始发言者的明确和知情同意，合作伙伴还必须清楚地向观众强调，他们听到的声音是由AI生成的。

OpenAI将为AI生成的语音添加水印，以追踪并主动监控其使用方式，以确保其透明度和安全度。

OpenAI官方表示：“我们目前不会广泛发布这项技术，仅小部分开放内测，希望语音引擎的这次内测既能强调其潜力，又能增强潜在问题的抵御能力，以应对越来越逼真的生成模型带来的挑战。”

此外，他们还将采取一系列安全措施，包括逐步淘汰基于语音的身份验证作为访问银行账户和其他敏感信息的安全措施；探索保护人工智能中个人声音使用的政策；教育公众了解人工智能技术的能力和局限性，包括欺骗性人工智能内容的可能性；加速开发和采用追踪视听内容来源的技术等。

更多内容请下载21财经APP

OpenAI语音模型“炸场” 15秒样本即可复刻人声

推荐体验

相关资讯

OpenAI推出全新语音引擎只需15秒样本即可完成

用15秒样本就能克隆原声！OpenAI首次公布语音模型

15秒样本生成乱真语音，OpenAI低调“试听”，建议银行关闭语音认证

15 秒语音片段就能合成某人声音，OpenAI小规模开放 Voice Engine

OpenAI推出语音克隆人工智能模型：可从15秒音频样本模仿任何说话人

近期资讯

福建华佳彩取得预防Frit熔接时金属导线烧伤的OLED膜层结构专利，保护TFT器件金属导线在Frit熔接不被激光烧伤

正泰新能取得一种钙钛矿电池结构及钙钛矿晶硅矿叠层电池专利，能够缓解界面应力

康士微取得用于贴片机下料机构专利，可降低大量能源效果减少生产经济负担

合肥大铭智能科技取得一种自动贴片装置专利，减少原材料消耗和环境污染

浙江贝瑞姆精密机械取得屏蔽罩组件专利，能够对散热孔大小及位置调节以适应不同规格电路

洲明科技取得一种贴片治具及灯板专利，使贴片治具与灯板的连接更为简便同时更耐高温

厦门强力巨彩取得一种贴片机料架专利，使得料盘转动摩擦小

江苏鑫迈维取得用于贴片机的上料机构专利，实现持续加工的效果

山东春帆电气取得一种半导体器件生产贴装设备专利，有利于将电路板进行定位

常州市润嘉农业科技有限公司取得具有调节效果的电子组装平台专利，可自动输送电子件

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响