本文背景
前段时间,直播头部公司三只羊还未走出「月饼门」,又陷入「录音门」。
一段疑似三只羊高管的录音内容被曝光,内容低俗,涉及到多位高管、主播,后来警方调查,音频内容不实,为 AI 伪造。好多人还真是无法相信,如今的AI能够到达如此以假乱真的地步。
还有短视频平台上出现了大量“雷军AI配音”的恶搞视频。
在这些视频中,“雷军”宣布捐款给某大学、用小米SU7撞人、远程控制小米手机进行爆炸等。到现在平台上相关话题浏览量已经过亿。
在雷军的微博评论区中也是炸锅了,各种各样评论
到底是用的什么制作的?
觉得这款工具厉害是因为它在我了解的所有语音工具中,处理长文本的能力是最强的,绝对的无可匹敌。
它可以一次性处理5000个字符,或者更多的文本。而且还能通过3秒以内的声音样本,进行快速声音克隆,雷军语录,就是用这款工具合成的。
效果特别逼真,最重要的是,它不仅功能强大,还具备高度的自然语言处理效果。能够精确的模拟情绪,并生成高质量的音频效果
部署安装
方法一:官网安装
简介官方地址:https://github.com/SWivid/F5-TTS
官网的介绍是需要科学的网络环境,才能够安装相关依赖,
具体的部署教程在下方也有
方法二:整合包直接安装
如果大家觉得麻烦,可以使用整合包,好处不需要在服务器上面部署环境,直接打开就可以使用
打开软件:
稍等片刻
浏览器就会自动进入主体界面
其中里面的Batched TTS就是输入文案的界面。
使用教程
在这里上传自己的音频或者你想模仿的音频。
然后在Reference Text输入这段音频的文字,也可以不用输入,为了更精确还是输入的好,反正不需要太长
因为上次雷军事件,有律师说这个违法,所以我这里不示范雷军的音频了,我直接找了一个小姐姐的音频导入。
点击Synthesize开始生成,之需要等几分钟生成完毕
等待下面加载中
完成
其中这款软件还有对话和声音变色的功能
对话可以通过输入两个不同的音色,整合成一个音频,而不需要你自己手动剪辑整合。
声音变色就是让声音有不同的情绪,可以高兴、悲伤、生气等等,当然每个情绪都需要上传对应不同的音频,高兴就上传高兴的音频,悲伤就上传悲伤的,以此类推。
总结
有个小技巧大家在用的时候需要注意一下,F5支持中英文,但是不支持数字,这个点就非常的尴尬,所以你需要把数字处理一下变成中文。比如,369,变成“三六九”。F5就能正常识别了。
至于文案方面,方法太多了,最常用的还是借鉴其它的文案,目前新增了第三版重写指令,能够无字数差别重写,深度减少AI味
我是大象,目前在做AI写作,副业从事新媒体运营,并拥有自己的工作室。借助AI技术趋势,我们可以做自媒体任何行业的赋能
我通过发布多篇实用干货视频教学,我每天深入研究AI的应用,大部分文案和视频都由AI协助完成,使我的工作效率大幅提升,节省了近一半的人力成本。AI的趋势远不止于此,其潜力巨大。