当前位置:首页|资讯|Whisper|OpenAI

whisper批量转录音频并输出为word文档

作者:S子博发布时间:2023-10-28

任务

使用whisper批量转录音频,之后将转录得到的文本信息后输出为word文档。

使用背景

日常学习的过程中,会收听很多音频课程,但是没有对应的文字讲稿,不利于复习和整理。使用OpenAI的whisper包解决了自己的这个需求。现在分享出来,希望对大家有所帮助。

前提准备

安装有python的电脑一台,并且需要安装几个必要的python包:os, whisper, python-docx。

注:本文不涉及安装python以及上述python包的步骤。

实现过程

1 获取需要批量转录的音频的路径

使用时需要指定音频所在文件夹的绝对路径,同时需要指定音频的类型。

示例程序以扩展名为‘aac’的音频为例,也可以是其它whisper支持的音频类型。

2 对音频进行转录操作

转录模型我一般使用‘medium’,因为效果与速度均可接受。Macbook Air M1使用medium模型转录,平均1分钟音频需要运行1分钟。

3 将转录结果输出至word文档

需要指定word文档的文件名,文件名同时也是word文件的大标题。

上述代码块中引用了用来调整文档基本格式的adjustDocStyle函数,其定义如下:

需要说明的是,格式中没有设置页码格式,因而需要自己手动添加页码。因为我目前没找到如何使用python设置word文档页码的方法,后续我会更新此教程。

4 程序汇总

上面分别介绍了三个模块,下面是整个程序的源码。

总结

此教程使用whisper转录出音频里的文本信息转录出来,并将文本内容输出到word文档里,便于后续使用。

如果程序有使用不便或其它值得改进的地方,希望能够留下宝贵的意见。之后我会再维护此教程。

2023年10月28日



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1