当前位置:首页|资讯

最强AI声音克隆,仅需15秒!一键即可生成雷军"骂人"语音!

作者:大象AIGC发布时间:2024-10-27

本文背景

前段时间,直播头部公司三只羊还未走出「月饼门」,又陷入「录音门」。

一段疑似三只羊高管的录音内容被曝光,内容低俗,涉及到多位高管、主播,后来警方调查,音频内容不实,为 AI 伪造。好多人还真是无法相信,如今的AI能够到达如此以假乱真的地步。

还有短视频平台上出现了大量“雷军AI配音”的恶搞视频。

在这些视频中,“雷军”宣布捐款给某大学、用小米SU7撞人、远程控制小米手机进行爆炸等。到现在平台上相关话题浏览量已经过亿。

在雷军的微博评论区中也是炸锅了,各种各样评论

到底是用的什么制作的?

觉得这款工具厉害是因为它在我了解的所有语音工具中,处理长文本的能力是最强的,绝对的无可匹敌。

它可以一次性处理5000个字符,或者更多的文本。而且还能通过3秒以内的声音样本,进行快速声音克隆,雷军语录,就是用这款工具合成的。

效果特别逼真,最重要的是,它不仅功能强大,还具备高度的自然语言处理效果。能够精确的模拟情绪,并生成高质量的音频效果

部署安装

方法一:官网安装

简介官方地址:https://github.com/SWivid/F5-TTS

官网的介绍是需要科学的网络环境,才能够安装相关依赖,

具体的部署教程在下方也有

方法二:整合包直接安装

如果大家觉得麻烦,可以使用整合包,好处不需要在服务器上面部署环境,直接打开就可以使用

打开软件:

稍等片刻

浏览器就会自动进入主体界面

其中里面的Batched TTS就是输入文案的界面。

使用教程

在这里上传自己的音频或者你想模仿的音频。

然后在Reference Text输入这段音频的文字,也可以不用输入,为了更精确还是输入的好,反正不需要太长

因为上次雷军事件,有律师说这个违法,所以我这里不示范雷军的音频了,我直接找了一个小姐姐的音频导入。

点击Synthesize开始生成,之需要等几分钟生成完毕

等待下面加载中

完成

其中这款软件还有对话声音变色的功能

对话可以通过输入两个不同的音色,整合成一个音频,而不需要你自己手动剪辑整合。

声音变色就是让声音有不同的情绪,可以高兴、悲伤、生气等等,当然每个情绪都需要上传对应不同的音频,高兴就上传高兴的音频,悲伤就上传悲伤的,以此类推。

总结

有个小技巧大家在用的时候需要注意一下,F5支持中英文,但是不支持数字,这个点就非常的尴尬,所以你需要把数字处理一下变成中文。比如,369,变成“三六九”。F5就能正常识别了。

至于文案方面,方法太多了,最常用的还是借鉴其它的文案,目前新增了第三版重写指令,能够无字数差别重写,深度减少AI味

我是大象,目前在做AI写作,副业从事新媒体运营,并拥有自己的工作室。借助AI技术趋势,我们可以做自媒体任何行业的赋能

我通过发布多篇实用干货视频教学,我每天深入研究AI的应用,大部分文案和视频都由AI协助完成,使我的工作效率大幅提升,节省了近一半的人力成本。AI的趋势远不止于此,其潜力巨大。



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1