近年来,随着人工智能与计算机生成内容(AICG)技术的飞速发展,众多人才纷纷投身于这一领域。从ChatGPT到Stable Diffusion,再到RVC,这些广为人知的AI技术正逐步改变我们的生产方式。众所周知,不论使用何种AI软件,模型的质量都是至关重要的。一个优秀的模型直接关联到最终产品的优劣,因此,模型的构建和优化成为了AI行业的核心任务。
在了解RVC模型之前,首先得了解什么是RVC,RVC指的是一个基于检索的语音转换(Retrieval-based Voice Conversion)项目,它允许用户通过训练来转换和生成不同音色的语音。这个工具可以用于语音合成、变声器等应用场景,一个好的RVC模型,决定最终输出的品质。
本音频来自妙音工坊(klrvc.com)的懒懒音色
目前RVC模型相对来说没有Stable Diffusion的多,因为RVC面向的是实时变声这块的应用,配置需求会相对来说比Stable Diffusion稍微高一些(Stable Diffusion配置低,能跑的情况下只是会影响出图速度,但是RVC如果配置太低就直接就会暴音,卡等)下面分享一些常用的RVC模型网站
妙音工坊(klrvc.com),有免费的RVC模型以及GPT-SoVITS模型,而且每日都会有更新,模型质量也是不错的,而且作者会把一个音色的所有训练轮数分享出来,目前这家网站做的还是很良心,单个音频好像也不贵,质量也没得说。
B站,RVC的兴起之地,作者花儿不哭大佬开源产品,可以搜索RVC模型,不过大部分收费。
目前来说真正免费的RVC模型并没有几家能实现,大部分单个模型奔着2K以上,自己训练一个RVC其实并不难,RVC模型训练的难点在于,对原声的处理极高,可能幸幸苦苦找的干音训练个十几-几十个小时发现出来的效果并不好,这也是很多炼丹师目前头疼的问题。