当前位置:首页|资讯|Whisper|GitHub|OpenAI|编程

使用Whisper批量转换视频中的文字-01

作者:iaiuse发布时间:2024-03-13

因为工作需要把视频中的语音转换成文字,网上找了很多方案,效果不佳不说,大部分都是价格不菲。正好最近在学习OpenAI,于是找到了这款神器,意外的效果好,而且免费,而且本地就能运行。它有一个windows下客户端可以直接使用,但是一次只能处理一个文件,所以就想着如何自动化批量处理,发现原来它有个cli版本。
总的来说,它的原理是先通过ffmpeg转换成音频文件,然后再通过whisper转换成文字

总的来说,命令行的方式还比较简介


1、去哪里下载

  • 代码下载

https://github.com/openai/whisper/releases
在github上可以下载到最新的版本

这个是官方的地址,有兴趣可以下来看看,主要用到的是下面地址的内容

  • 模型下载(针对命令行方式和客户端方式)

https://huggingface.co/datasets/ggerganov/whisper.cpp/tree/main


很好理解,模型越大越慢,也越精准,所以我下载了large。

2、客户端版本

这里说的客户端版本,就是它提供了一个exe文件,里面可以设置一些东西。
https://github.com/Const-me/Whisper/releases


这里的WhisperDesktop就是Windows下的版本了,从这里看应该是没有其他系统的版本了。
客户端版本使用比较简单,但是需要先下载模型文件,下面会用到,它启动就会要求。

2.1 启动

启动很简单,加载模型需要一些时间,还挺久的

这里可以设置选择哪个显卡,在advanced里面可以设置显卡

老实说,也没啥必要调整,就一个简单工具,调整也调不出花来。

2.2 转换

设置一下要转换的文件,还有输出的格式,默认情况,下面的Place that file to the input folder 是没有选中的,选中以后,输出的文件名就和原始文件名一致,但是扩展名不同。
比如图上的,原始文件名是 家庭.mp4,结果就是 家庭.txt。
设置好了以后,就开始走进度转换了

转换的效果没得说,遗憾的是一次只能搞1个。所以想尝试批量方案。一开始尝试rpa,后来想想有点杀鸡用牛刀了

今天的内容就先分享到这里哦



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1