当前位置:首页|资讯|Stable Diffusion|ChatGPT|数字人

造梦师手记:中国小哥研发,Stable Diffusion一张图生成视频数字人

作者:铁华团的黄金船发布时间:2023-07-13

前一段时间,AI孙燕姿热闹非凡。AI合成的声音,和真人已经几乎难以分辨。

不难想象,在洛天依等数字IP持续火热的过程中,随着AI技术的突飞猛进,很可能会出现一个真正超越人类声音的AI歌手。

一边是ChatGPT等超级AI可以代替人类思考生成文字;

一边是Stable Diffusion等AI绘图(视频)可以从文字生成图像(视频的本质是一帧帧的图像,AI绘图突破后,视频只是个累加工作量);

一边是AI合成声音越来越逼真。

这也意味着,三个环节打通后,真正的数字人,触手可及了。

事实上,相关的技术已经基本实现突破,剩下的就是一步步迭代,更加完美。

今天给大家介绍的插件,是开局一张图,剩下的全靠AI编。

这个插件叫SadTalker,创作者来自西交大。

一、程序安装

程序本身安装比较简单,但程序需要的模型搞起来比较复杂。作者单独打包了模型,需要从网盘下载。

https://github.com/OpenTalker/SadTalker

装完程序后,使用前还要下载模型和依赖包。

二、模型、依赖包下载和安装

模型和依赖包下载地址:

百度云盘: https://pan.baidu.com/s/1nXuVNd0exUl37ISwWqbFGA?pwd=sadt

123云盘:https://www.123pan.com/s/ueDeVv-DM0I.html 提取码:lgyh

在extensions\SadTalker 目录下手工创建一个文件夹:chekpoints

1、将下载的模型文件(百度云盘的需解压,123云盘的下载下来即可)拷贝至xtensions\SadTalker\chekpoints

2、将视频解码文件解压缩,放到C盘根目录下,ffmpeg-2023-07-10-git-1c61c24f5f-full_build.7z

解压缩后,将文件夹改名为ffmpeg(改成别的也可,为了方便),将文件夹拷贝到c:\ffmpeg

然后在环境配置里增加环境变量。

变量为c:\ffmpeg\bin

配置完环境变量后,需重启计算机生效。

三、Stable Diffusion的WebUI界面会新增SadTalk选项卡

略奇怪的是,和作者在主页上放出的界面略有不同。

作者的界面里有一个从文生图读取图片功能,实际安装后并无此按钮。

我以为是版本问题,更新到最新发现也没有,估计作者忘了放上了。耐心等下个版本吧。

稍微繁琐一点点的地方,是需要将生成的图片存到硬盘,再在SadTalk界面上传,多浪费3秒钟。

四、使用界面简介

整个界面大致有四个区域,左上栏上传图片,左下栏上传音频(可以从AI网站由文字生成),右上栏是配置界面,右下栏是生成视频。

只有右上栏略微复杂一些,挨个按钮介绍下。

Pose style是口型和眼睛的风格,我的建议是随缘。

face model resolution是面部识别模型,建议256,对资源占用小一些。

preprocess是截取照片,crop是只取头部,full是全图,建议选full效果好一些,可以提前手工截取比较满意的画面再上传。

GFPGAN是高清模式,占用资源比较大。

需要注意的是,音频不要太长,30秒内为佳,否则对显卡要求过高,容易爆显存,生成失败。

五、我做的视频范例

建议使用真人模型,正脸面对镜头,否则容易识别失败。

原图:

视频:



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1