写在前面:
本专栏为在linux系统上的VITS-fast-fine-tuning本地部署流程,安装完后可在本地进行模型训练和推理,仅供参考,更多问题可参考github上的issue等,请善用搜索软件和chatgpt来解决问题。安装环境时不要使用梯子,记得切换时关掉chatgpt防止封号。
1、克隆git项目
https://github.com/Plachtaa/VITS-fast-fine-tuning
2、安装环境
参考LOCAL.md文件,进行环境安装
接下来是requirements的安装,先cd进你的VITS-fast-fine-tuning文件夹位置,打开requirements.txt,手动将pyopenjtalk库的版本从0.1.3改成0.1.4,不然不管是linux还是windows都会出很大问题,会导致后续GLIBCXX一个文件的不匹配,具体报错和出处可参考:
3、创建目录
这里只要你一开始是从VITS-fast-fine-tuning的文件夹目录下开始操作,按照LOCAL.md来就行,基本不会出问题,对应LOCAL.md中的5、6、7部分,此处略过。
4、下载预训练模型
下载预训练模型时有CJE、CJ、C三种模块可以选,请注意你的文件里只能放一种模块的预训练模型,如果要更换(如将C改为CJE),需要先删除已有的模型,再下载新的模型。下载完成后可以在pretrained_models和configs文件夹下看一眼在不在。
5、数据集处理
上传数据集按照LOCAL.md中的DATA.MD的格式操作就行,目前我尝试过短音频集和单条长音频,都没有报错。
数据集预处理按照如下代码依次进行(其中long和short看你传了什么音频,新手可以直接全部跑一遍),pretrained_model需要改成之前的预训练模块名,whisper_size如果报错就把large改成medium或者small。
6、模型训练及推理
模型训练:
代码如下,如果你的音频被分割后数据量比较少,那epoch就需要小一点,不然可能会报错。
模型推理:
代码如下,复制就行。
7、其他
如果你想在云端(如github中给出的colab)中训练,再在本地进行推理,有以下两种方法:
1、下载github的inference整合包,再放入云端训练的json配置和pth模型文件,点击exe一键运行。(无法更改推理部分的源码)
2、按照上面的流程安装环境,并将训练好的json配置和pth模型文件放入推理这一步调用的目录下面,即可跳过数据集处理、训练等步骤,安装完环境直接运行模型推理的代码,会自动在终端弹出gradio的网页界面。(可以更改推理部分的源码)
由于这个git的本地部署折磨了我很久,所以发一些遇到的问题和参考流程,希望能有所帮助,欢迎关注。