如果有Nvidia显卡,一般都建议安装pytorch进行GPU加速。
标配:Nvidia Driver + CUDA + cuDNN + python虚拟环境安装pytorch的安装难点是找到适配python和CUDA的torch的GPU版本
whisper
项目地址:https://github.com/openai/whisper
pip install -U openai-whisper
whisper test.mp3 --model tiny --language English --output_format txt
可转录的音频格式有mp3,wav,flac,mp4,mpweg,mpga,m4a,webm,输出文本格式有txt,src,vtt,json,tsv),模型对应文件大小如下图:
F5-TTS
网址:https://f5tts.org
在线体验:https://f5tts.org/playground
安装
运行webUI
访问 http://localhost:7860
ChatTTS-ui
项目地址:https://github.com/jianchang512/ChatTTS-ui?tab=readme-ov-file
一个简单的本地网页界面,使用ChatTTS将文字合成为语音,同时支持对外提供API接口。
安装
运行
tts-generation-webui
项目地址:https://github.com/rsxdalv/tts-generation-webui
运行bat下载速度慢,docker镜像很大,也容易下载失败。
pyVideoTrans
网址:https://pyvideotrans.com/
在线体验:https://tts.pyvideotrans.com/
安装
如果是 Windows10/11 系统,直接下载压缩包,解压到无空格无中文的路径下,双击 sp.exe 即可使用(必须先解压再使用,不可直接压缩包中双击sp.exe)。
Linux和macOS的安装指南:https://pyvideotrans.com/downpackage.html