使用whisper批量转录音频,之后将转录得到的文本信息后输出为word文档。
日常学习的过程中,会收听很多音频课程,但是没有对应的文字讲稿,不利于复习和整理。使用OpenAI的whisper包解决了自己的这个需求。现在分享出来,希望对大家有所帮助。
安装有python的电脑一台,并且需要安装几个必要的python包:os, whisper, python-docx。
注:本文不涉及安装python以及上述python包的步骤。
1 获取需要批量转录的音频的路径
使用时需要指定音频所在文件夹的绝对路径,同时需要指定音频的类型。
示例程序以扩展名为‘aac’的音频为例,也可以是其它whisper支持的音频类型。
2 对音频进行转录操作
转录模型我一般使用‘medium’,因为效果与速度均可接受。Macbook Air M1使用medium模型转录,平均1分钟音频需要运行1分钟。
3 将转录结果输出至word文档
需要指定word文档的文件名,文件名同时也是word文件的大标题。
上述代码块中引用了用来调整文档基本格式的adjustDocStyle函数,其定义如下:
需要说明的是,格式中没有设置页码格式,因而需要自己手动添加页码。因为我目前没找到如何使用python设置word文档页码的方法,后续我会更新此教程。
4 程序汇总
上面分别介绍了三个模块,下面是整个程序的源码。
总结
此教程使用whisper转录出音频里的文本信息转录出来,并将文本内容输出到word文档里,便于后续使用。
如果程序有使用不便或其它值得改进的地方,希望能够留下宝贵的意见。之后我会再维护此教程。
2023年10月28日