当前位置:首页|资讯|GitHub|ChatGPT

VITS-fast-fine-tuning本地部署(训练+推理)

作者:二中风纪委员长发布时间:2023-06-20

写在前面:

本专栏为在linux系统上的VITS-fast-fine-tuning本地部署流程,安装完后可在本地进行模型训练和推理,仅供参考,更多问题可参考github上的issue等,请善用搜索软件和chatgpt来解决问题。安装环境时不要使用梯子,记得切换时关掉chatgpt防止封号。


1、克隆git项目

https://github.com/Plachtaa/VITS-fast-fine-tuning


2、安装环境

参考LOCAL.md文件,进行环境安装

接下来是requirements的安装,先cd进你的VITS-fast-fine-tuning文件夹位置,打开requirements.txt,手动将pyopenjtalk库的版本从0.1.3改成0.1.4,不然不管是linux还是windows都会出很大问题,会导致后续GLIBCXX一个文件的不匹配,具体报错和出处可参考:


3、创建目录

这里只要你一开始是从VITS-fast-fine-tuning的文件夹目录下开始操作,按照LOCAL.md来就行,基本不会出问题,对应LOCAL.md中的5、6、7部分,此处略过。


4、下载预训练模型

下载预训练模型时有CJE、CJ、C三种模块可以选,请注意你的文件里只能放一种模块的预训练模型,如果要更换(如将C改为CJE),需要先删除已有的模型,再下载新的模型。下载完成后可以在pretrained_models和configs文件夹下看一眼在不在。


5、数据集处理

上传数据集按照LOCAL.md中的DATA.MD的格式操作就行,目前我尝试过短音频集和单条长音频,都没有报错。

数据集预处理按照如下代码依次进行(其中long和short看你传了什么音频,新手可以直接全部跑一遍),pretrained_model需要改成之前的预训练模块名,whisper_size如果报错就把large改成medium或者small。


6、模型训练及推理

模型训练:

代码如下,如果你的音频被分割后数据量比较少,那epoch就需要小一点,不然可能会报错。

模型推理:

代码如下,复制就行。


7、其他

如果你想在云端(如github中给出的colab)中训练,再在本地进行推理,有以下两种方法:

1、下载github的inference整合包,再放入云端训练的json配置和pth模型文件,点击exe一键运行。(无法更改推理部分的源码)

2、按照上面的流程安装环境,并将训练好的json配置和pth模型文件放入推理这一步调用的目录下面,即可跳过数据集处理、训练等步骤,安装完环境直接运行模型推理的代码,会自动在终端弹出gradio的网页界面。(可以更改推理部分的源码)


由于这个git的本地部署折磨了我很久,所以发一些遇到的问题和参考流程,希望能有所帮助,欢迎关注。


Copyright © 2025 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1