和ChatGPT一样,莫名其妙地,在创作热潮都快过去的时候,或许是突然资本入局的原因,AI换声又火起来了。
笔者最早看到AI换声(vits类模型的应用),大概是22年的绫地宁宁的语音合成。当时印象最深的是有人合成了一个天皇诏书。荒诞之余,实际效果并不理想。这段时间类似声线提取用于唱歌,比较火的就是Rcell的AI猫雷系列,此人也是后来火上天的so-vits的作者。
另外,还有一部分内容比较瞩目,就是原神类内容,甚至导致了后面相当长一段时间念稿TTS都是用的派蒙或者可莉声线。究其原因的话,可能是因为原神语音解包比较方便,质量也很好。
需要留意的是,语音合成和换声是显著不同的。前者就是所说的TTS,Text-to-speach,被营销号们为了最大提高排泄效率普遍采用的那种。输入文本,从0开始生成声音。缺点在于,断句、语气并不理想,基本可以做到一耳朵就能听出来。我本人其实是比较反感AI配音念稿的,认为缺少对观众最基本的尊重。
而换声,最好理解的方式,就是变声器。也就是说,基于现有的声音,更换为指定的音色。
与语音合成和以Vocaloid、Synthesizer V、CeVIO AI等为代表的歌声合成相比,最大的区别是,必须通过现有声音输入。而不是输入MIDI文件+歌词或者单纯的文本。
这也就意味着,想要调整换声后的效果,除了少部分合成参数外(比如利用聚类减少音色泄露),只能通过调整输入的干声来解决。或者对整个模型重新训练。
训练模型的感觉、以及利用训练好的模型进行换声,各种情况下都像是抽奖。对照着RipX去分析波形,切和声、去尾音、留还是不留呼吸声,模型训练还要考虑过拟合。作为使用者(也就是利用算法、工具训练和换声的人,而非算法作者研究者)的角度,很多时候是挺无奈的,一种完全不可控的感觉。
但优势同样非常明显。一旦你得到了一个效果较好的模型,只要简单对输入干声进行预处理(比如清理和声),几秒钟时间就能做出一首。哪怕算上后期,半个小时出一首堪听的“翻唱”都是绰绰有余的。这种效率是无法想象的,真人录歌+后期都做不到。
对比之下,歌声合成软件要麻烦得多。扒谱、填词、加和声、调整音符参数…… 再加上后期的时间,一个星期左右是很正常的。几十上百倍的效率差距。当然,歌声合成就做到了一定程度上唱法的量化和控制,这是AI换声做不到的。
最近的热点是AI孙燕姿。其实早在2023年二、三月份,相关算法公开,换声类翻唱井喷的时候,大量的名人换声就初见端倪。典型的就是AI周杰伦等。如果说对游戏角色、动画声优或者日本歌手换声可以借由二创免责或者国界优势睁一只眼闭一只眼的话,对华语歌手的换声,甚至个别换声政治人物(包括我们不能提到的那位),就完全是在雷区蹦迪了。结果是Rcell直接删库跑路了。
从法律意义上,但凡利用他人形象、声音,不管涉及不涉及盈利,原则上都要拿到许可。无非是当事人是否在意的事情。你可以辩解什么「帮你宣传了」云云,但人家如果不愿意甚至起诉,那一定是对方获胜且占理。这就像字幕组一样,擅自翻译本质上就是侵权,无非对方是否检举的问题。最近有唱见、声优专门发文表示不要擅自上传直播切片之类的,也是同理(扯多了)本站类似的例子是「鬼畜」问题。
我做动画相关翻译和发布相关,到现在已经有5年多的时间了。经历过的事件是真不算少。但我觉得始终有一点,就是对版权的敬意。就算我们再吐槽版权方的无情,没有一个创作者愿意看到自己的辛苦创作的作品被恶意利用。这一点是一定的。
回到AI换声,前面说过,本质上的变声器性质,也就意味着最终的演唱技巧完全取决于输入干声。那么,就像所有AIGC面临的问题一样,千篇一律不可避免。而假使我们额外找人翻唱来提供相关变化,那为何不干脆直接演唱呢?还避免了利用声音上面的肖像权问题。(翻唱的著作权肯定也要考虑)。
从好的角度,让喜欢的人唱自己喜欢的歌,甚至「复活」已逝歌手的声音,怎么说也是有积极意义的。这也是我创作AI李依李系列的原因。但喜欢和侵权也就一念之间。某种程度上这也是很多时候我们不希望把有些灰色性质的小圈子曝光的原因。
以上,就是我作为实际尝试过AI换声以及AI歌声合成的人的一些看法。
有兴趣可以听听我的一些作品。
AI李依李:https://b23.tv/K4DQh05