近期,OpenAI宣布推出其最新开发的文本转语音生成平台,名为“语音引擎”,并提供有限访问权限。该平台可以根据15秒的语音片段创建合成语音,能够以与说话者相同的语言或多种其他语言朗读命令文本提示。这一新技术旨在为各个行业提供更广泛的应用,并为OpenAI自身的方法和保障措施提供信息。
在OpenAI的博客文章中指出,通过小规模部署此技术,有助于他们了解如何将语音引擎应用于各个行业,并为其技术的进一步发展提供反馈和数据支持。已被授权访问的公司包括教育科技公司Age of Learning、视觉讲故事平台HeyGen、一线健康软件制造商Dimagi、人工智能通信应用程序创建者Livox和健康系统Lifespan。
据OpenAI透露,该语音引擎技术的开发始于2022年底,已经为文本转语音API和ChatGPT的朗读功能提供了预设语音。OpenAI语音引擎产品团队成员杰夫·哈里斯在接受TechCrunch采访时表示,该模型是通过许可数据和公开数据的组合进行训练的。OpenAI告诉该出版物,目前仅有大约10名开发人员获得了此模型的开放权限。
语音生成技术一直是人工智能领域不断发展的一部分。虽然大多数人关注的是乐器或自然声音的生成,但语音生成技术的应用潜力巨大。一些公司如Podcastle和ElevenLabs已经开始探索人工智能语音克隆技术和工具的应用,这进一步证明了这一领域的前景和潜力。
OpenAI的语音引擎的推出标志着文本转语音技术的进一步演进,为各行业提供了更多可能性,同时也为该领域的发展提供了新的动力和方向。