转载说明:原创不易,未经授权,谢绝任何形式的转载
为了配合ChatGPT API的推出,OpenAI今天推出了Whisper API,这是公司在去年3月发布的开源Whisper语音转文本模型的版本。
Whisper是一种自动语音识别系统,售价为每分钟0.006美元。OpenAI声称它能够在多种语言中实现“强大的”转录,以及从这些语言翻译成英语。它可以处理多种格式的文件,包括M4A、MP3、MP4、MPEG、MPGA、WAV和WEBM。
许多机构都开发了高效的语音识别系统,这些系统是Google、Amazon和Meta等科技巨头软件和服务的核心。但是,Whisper的不同之处在于它使用OpenAI总裁兼领导Greg Brockman所说的从网络上收集的680,000小时的多语言和多任务数据进行训练,从而改进了对独特口音、背景噪音和技术术语的识别。
布罗克曼在昨天下午与TechCrunch进行的视频通话中表示:“我们发布了一个模型,但这并不足以引起整个开发生态系统的建立。Whisper API与开源的同一大型模型相同,但我们已经进行了极致的优化。它速度更快,非常方便。”
正如布罗克曼所说,企业采用语音转录技术时会遇到很多障碍。根据2023年Statista的一项调查,公司提到的原因包括准确性、口音或方言识别问题和成本,这些都是他们没有采用语音转文本技术的主要原因。
然而,Whisper也有其局限性,尤其是在“下一个单词”预测方面。由于该系统训练时使用了大量嘈杂的数据,OpenAI提醒说Whisper可能会在转录中包含未实际说出的单词,可能是因为它同时在尝试预测音频中的下一个单词和转录音频本身。此外,Whisper在不同语言间表现并不相同,在那些训练数据中未充分的个别语种,错误率较高。
遗憾的是,语音识别领域的这一问题并不新鲜。就连最好的系统也一直受到偏见的困扰。2023年,斯坦福大学的一项研究发现,亚马逊、果子、谷歌、IBM和微软的系统在处理白人用户的语音时,出错率要比处理国外用户的高出约19%。
尽管如此,OpenAI认为Whisper的转录能力可以用于改善现有的应用程序、服务、产品和工具。目前,使用人工智能技术的语言学习应用程序Speak正在使用Whisper API来支持新的应用程序虚拟语音助手。
延伸阅读:什么是Speak?
Speak是一款基于人工智能的语言学习应用,它利用自然语言处理和语音识别技术帮助用户学习新语言。这个应用可以让用户练习口语、听力、阅读和写作等语言技能,并提供了一系列交互式练习,例如对话模拟、单词学习、语法练习等。最近,Speak开始使用Whisper API来支持它的新功能——虚拟说话伴侣。
如果OpenAI能够大规模进入语音转文字市场,这对于微软支持的公司来说可能非常有利可图。根据一份报告,该细分市场到2026年可能达到54亿美元,而2023年的市场规模为22亿美元。
“我们的愿景是成为普遍智能,”Brockman说。“我们真的想要非常灵活地接收任何您拥有的数据——任何您想要完成的任务——并成为那种注意力的力量倍增器。”
延伸阅读:如何理解注意力的力量倍增器?
当OpenAI的技术应用到各种不同的数据和任务上时,它可以像一个“力量倍增器”一样,让用户的工作效率和成果得到更大的提升。也就是说,OpenAI希望成为一种能够帮助人们更好地利用注意力的工具。
今天的分享就到这里,希望对你有所帮助,感谢你的阅读,
小哥创作不易,如果你喜欢我的分享,别忘了点赞转发,让更多有需要的人看到,最后别忘记关注「前端达人」,你的支持将是我分享最大的动力,后续我会持续输出更多内容,敬请期待。
作者:Kyle Wiggers
发布时间:3 月 2 日 02:00
非直接翻译,有自行改编和添加部分,翻译水平有限,难免有疏漏,欢迎指正