因为工作需要把视频中的语音转换成文字,网上找了很多方案,效果不佳不说,大部分都是价格不菲。正好最近在学习OpenAI,于是找到了这款神器,意外的效果好,而且免费,而且本地就能运行。它有一个windows下客户端可以直接使用,但是一次只能处理一个文件,所以就想着如何自动化批量处理,发现原来它有个cli版本。
总的来说,它的原理是先通过ffmpeg转换成音频文件,然后再通过whisper转换成文字
总的来说,命令行的方式还比较简介
代码下载
https://github.com/openai/whisper/releases
在github上可以下载到最新的版本
这个是官方的地址,有兴趣可以下来看看,主要用到的是下面地址的内容
模型下载(针对命令行方式和客户端方式)
https://huggingface.co/datasets/ggerganov/whisper.cpp/tree/main
很好理解,模型越大越慢,也越精准,所以我下载了large。
这里说的客户端版本,就是它提供了一个exe文件,里面可以设置一些东西。
https://github.com/Const-me/Whisper/releases
这里的WhisperDesktop就是Windows下的版本了,从这里看应该是没有其他系统的版本了。
客户端版本使用比较简单,但是需要先下载模型文件,下面会用到,它启动就会要求。
启动很简单,加载模型需要一些时间,还挺久的
这里可以设置选择哪个显卡,在advanced里面可以设置显卡
老实说,也没啥必要调整,就一个简单工具,调整也调不出花来。
设置一下要转换的文件,还有输出的格式,默认情况,下面的Place that file to the input folder 是没有选中的,选中以后,输出的文件名就和原始文件名一致,但是扩展名不同。
比如图上的,原始文件名是 家庭.mp4,结果就是 家庭.txt。
设置好了以后,就开始走进度转换了
转换的效果没得说,遗憾的是一次只能搞1个。所以想尝试批量方案。一开始尝试rpa,后来想想有点杀鸡用牛刀了
今天的内容就先分享到这里哦