当前位置:首页|资讯

MaskGCT,AI语音克隆大模型本地部署(Windows11),基于Python3.11,TTS,文字转语音

作者:刘悦的技术博客发布时间:2024-10-28

    前几天,又一款非自回归的文字转语音的AI模型:MaskGCT,开放了源码,和同样非自回归的F5-TTS模型一样,MaskGCT模型也是基于10万小时数据集Emilia训练而来的,精通中英日韩法德6种语言的跨语种合成。数据集Emilia是全球最大且最为多样的高质量多语种语音数据集之一。

    本次分享一下如何在本地部署MaskGCT项目,让您的显卡再次发烧。

    安装基础依赖

    首先确保本地已经安装好Python3.11环境,安装包可以去Python的官方下载:

    随后克隆官方项目:

    官方提供了基于linux的安装shell脚本:

    这里笔者为大家转换为适合Windows的requirements.txt依赖文件:

    运行命令:

    安装依赖即可。

    安装onnxruntime-gpu:

    安装torch三件套:

    Windows配置espeak-ng

    由于MaskGCT项目后端依赖espeak软件,所以需要在本地进行配置,eSpeak 是一个紧凑的开源文本转语音 (TTS) 合成器,支持多种语言和口音 。它使用“共振峰合成”方法,允许以较小的体积提供多种语言 。语音清晰,可以高速使用,但不如基于人类语音录音的较大合成器自然流畅,而MaskGCT就是在espeak的合成基础上进行二次推理。

    首先运行命令安装espeak:

    如果装不上,也可以下载安装包手动安装:

    随后下载espeak-ng安装包:

    下载后双击安装。

    接着把 C:\Program Files\eSpeak NG\libespeak-ng.dll 拷贝到 C:\Program Files (x86)\eSpeak\command_line 目录。

    然后把 libespeak-ng.dll 重命名为 espeak-ng.dll

    最后把 C:\Program Files (x86)\eSpeak\command_line 目录配置到环境变量即可。

    MaskGCT本地推理

    都配置好之后,编写推理脚本 local_test.py:

    首次推理会在hf_download目录下载10个G的模型。

    推理过程中,会占用11G的显存:

    如果您的显存低于11G,那么务必打开Nvidia控制面板的系统内存回退策略,通过系统内存来补足显存:

    如果愿意,也可以基于gradio写一个简单的webui界面,app.py:

    当然,别忘了安装gradio依赖:

    运行效果是这样的:

    结语

    MaskGCT模型的优势在于语气韵律层面十分突出,可以媲美真实语音,缺点也很明显,运行成本偏高,工程化层面优化不足。MaskGCT项目主页中已经有其商业版本模型的入口,据此推断,官方应该不会在开源版本中太过发力,最后奉上一键整合包,与众乡亲同飨:





Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1