很多做录音采访之类的工作,需要实时录音后期还要将谈话内容整理成文字,如果人工去做的话及其耗时,还可以根据音频文件生成srt字幕,非常适合做自媒体视频的人用,还比如看到一些视频非常好很想将里面的文案提取出来,有很多软件就可以实现将语音转成文字,这里就跟大家分享一个免费又好用的软件:Whisper,这是一个免费开源程序,该软件是whisper.cpp实现的Windows 移植,是OpenAI 的 Whisper自动语音识别 (ASR) 模型的 C++ 端口。github项目地址:https://github.com/Const-me/Whisper
关于模型选择,显卡显存在5G以上的就用ggml-large.bin模型,4G显存就用ggml-medium.bin模型,2G显存就用ggml-small.bin模型,模型越大识别精度越高,语音转文字效果越好。
软件和模型下载到本地电脑上之后,双击运行【WhisperDesktop.exe】,先选择所需要的模型,可以根据自己电脑配置自行选择。然后点击【OK】。
转录本地音频文件
进入下一个操作界面后,你想语音转文字的音频文件是说的什么语言,language后面就选什么语言,如果是英文音频,你选择的语言是中文,那么就会将英文音频识别并翻译成中文后输出文字内容,但是这里要注意的是翻译输出后的中文是繁体的。选择好音频文件和输出路径及输出文件名后,点击按钮【Transcribe】就可以开始转换了
4分37秒的音频用了1分7秒时间就处理完了,速度还算可以的。而且文字识别效果还挺好的。以前的时候做视频字幕,用的是剪映里面的智能字幕,自动识别人声自动生成字幕,整体上都能识别出来,但是总是还有很多地方有错别字,要完整看一遍挨着修改。这个软件也可以生成带时间轴的字幕,而且识别精度更高,需要修改的地方更少,就不需要特意用剪映来生成字幕了,这个软件操作起来更方便快捷。
实时转录
这个软件还有实时转录功能,可以实时将别人讲话的声音立即转换成文字,点击底部中央的按钮【Audio Captuer】,启动实时转录界面。勾选【Save to text file】,然后选择输出路径及文件名,也可以生成带时间轴的文字内容。然后点击按钮【Captuer】就可以开始实时对讲话的内容转成文字了。
实时转录效果相对转录音频文件略差一些,说话发音越标准,转录效果越好。
软件下载地址:链接:https://pan.baidu.com/s/1PyqXOUCPTYfbgEYY2GOw_A?pwd=b8nm
提取码:b8nm
注意:软件只支持Windows 64位系统
原文:https://dyss.top/1190