前一段时间,AI孙燕姿热闹非凡。AI合成的声音,和真人已经几乎难以分辨。
不难想象,在洛天依等数字IP持续火热的过程中,随着AI技术的突飞猛进,很可能会出现一个真正超越人类声音的AI歌手。
一边是ChatGPT等超级AI可以代替人类思考生成文字;
一边是Stable Diffusion等AI绘图(视频)可以从文字生成图像(视频的本质是一帧帧的图像,AI绘图突破后,视频只是个累加工作量);
一边是AI合成声音越来越逼真。
这也意味着,三个环节打通后,真正的数字人,触手可及了。
事实上,相关的技术已经基本实现突破,剩下的就是一步步迭代,更加完美。
今天给大家介绍的插件,是开局一张图,剩下的全靠AI编。
这个插件叫SadTalker,创作者来自西交大。
一、程序安装
程序本身安装比较简单,但程序需要的模型搞起来比较复杂。作者单独打包了模型,需要从网盘下载。
https://github.com/OpenTalker/SadTalker
装完程序后,使用前还要下载模型和依赖包。
二、模型、依赖包下载和安装
模型和依赖包下载地址:
百度云盘: https://pan.baidu.com/s/1nXuVNd0exUl37ISwWqbFGA?pwd=sadt
123云盘:https://www.123pan.com/s/ueDeVv-DM0I.html 提取码:lgyh
在extensions\SadTalker 目录下手工创建一个文件夹:chekpoints
1、将下载的模型文件(百度云盘的需解压,123云盘的下载下来即可)拷贝至xtensions\SadTalker\chekpoints
2、将视频解码文件解压缩,放到C盘根目录下,ffmpeg-2023-07-10-git-1c61c24f5f-full_build.7z
解压缩后,将文件夹改名为ffmpeg(改成别的也可,为了方便),将文件夹拷贝到c:\ffmpeg
然后在环境配置里增加环境变量。
变量为c:\ffmpeg\bin
配置完环境变量后,需重启计算机生效。
三、Stable Diffusion的WebUI界面会新增SadTalk选项卡
略奇怪的是,和作者在主页上放出的界面略有不同。
作者的界面里有一个从文生图读取图片功能,实际安装后并无此按钮。
我以为是版本问题,更新到最新发现也没有,估计作者忘了放上了。耐心等下个版本吧。
稍微繁琐一点点的地方,是需要将生成的图片存到硬盘,再在SadTalk界面上传,多浪费3秒钟。
四、使用界面简介
整个界面大致有四个区域,左上栏上传图片,左下栏上传音频(可以从AI网站由文字生成),右上栏是配置界面,右下栏是生成视频。
只有右上栏略微复杂一些,挨个按钮介绍下。
Pose style是口型和眼睛的风格,我的建议是随缘。
face model resolution是面部识别模型,建议256,对资源占用小一些。
preprocess是截取照片,crop是只取头部,full是全图,建议选full效果好一些,可以提前手工截取比较满意的画面再上传。
GFPGAN是高清模式,占用资源比较大。
需要注意的是,音频不要太长,30秒内为佳,否则对显卡要求过高,容易爆显存,生成失败。
五、我做的视频范例
建议使用真人模型,正脸面对镜头,否则容易识别失败。
原图:
视频:
铁华团的黄金船 2023-06-05
铁华团的黄金船 2023-06-15
铁华团的黄金船 2023-07-22
铁华团的黄金船 2023-07-10
铁华团的黄金船 2023-06-02