当前位置:首页|资讯|AIGC|艺术|Stable Diffusion

划时代革命?新模型组ControlNet为AIGC产业带来了什么

作者:知势研究发布时间:2023-03-09

AI艺术家

Ask AI for ART

大家好,今天我们来介绍ControlNet。

这是最近发布的一个Stable Diffusion模型层面的体系级改进模型组。它的出现代表着AIGC的图像生成开始进入真正可控的时期,而可控性恰恰是工业化生产最关键的一环。

我们先直观感受一下,之里面包括了8个SD大模型,以及好几个辅助的预训练模型。体积总共达到了50G。

加上原本SD庞大的模型体系,现在完全可以说Stable Diffusion是一个吃硬盘的大胖子了。

ControlNet是干嘛的呢?顾名思义,它和diffusion模型最大的不同,就是它能control。

贴一张图,用最简单的语言表述就是,ControlNet模型通过添加额外条件来控制扩散模型的神经网络结构,从而实现对画面更细致的控制。

更直观的表达就是,在随机扩散的画面体系里面,增加可控的神经网络结构(比如线稿),去约束扩散。从而实现准确的表达。

它还允许进一步训练,将这一模式扩大到其他社区模型(比如咱的chinabeauty),甚至还可以用Lora模式训练。

原理上咱就讲那么多,反正大家也不爱看,大家知道这是一个算法层面的大改进,比模型层面的修修补补强太多就行,下面我们来看效果。

这次,ControlNet一口气释放了八种不同的模型,也就是说理论上有8种不同的玩法,这简直是核弹级别的大招了。

上面这张官方的示意图里面,示范的方法。左边是原图,一只橙色的鸟,右边先是生成了一张鸟的线稿图,然后又生成了5张形态结构相似,但颜色风格不同的鸟的图片。

有朋友说,这不就是图生图嘛?有什么奇怪的?!

其实是有的,如果你真的玩过很多次图生图的话,你一定会知道,它总是会整些奇奇怪怪的细节出来给你,让你哭笑不得。

而ControlNet给出来的,是很震撼的:

以下图片基于本号自炼模型chinaBeauty生成:

原图

Depth,深度图模式

原图

canny模式(线稿)

注:我们特意在描述中删除了船上的老人,把木船换成铁甲船(a battle ship)

hed 模式(软边界,保留更多细节)

从上面canny和hed 两个例子可以看到,实际上对应的是不同精细度的参照约束,而实现的效果也大有不同,比如canny更加注重轮廓上和原图的一致,而hed 更注重保留大轮廓和整体光感氛围。

但无论哪一种方法,它们都实现了之前图生图做不到的精准。

而对于商业价值来说,很显然,越精准,价值越大。

另一个价值很大的controlnet方法是Openpose,看名字就知道,这是一个关于动作的。

这种施法的姿态,之前是很难通过prompt准确实现的,而现在基于Openpose的骨架姿势识别,几乎可以非常准确的实现。

可以想象,基于固定角色的lora模型,基于模块化的动作骨架数据库,stable diffusion系列的模型有望实现逐帧输出的稳定角色动画了。

所以,能1秒出图的显卡比如Nvidia的4090,再加上插帧技术,大概也就能够实现1分钟渲染5-6秒动画的能力,这种速度是可怕的,因为只要输出稳定,未来可能只需要5-6台4090机器同步分段,原本需要一两周完成的动画/短movie,现在有可能压缩到1-2天内完成。

也正因为如此,在很多AIGC社区,有人认为ControlNet正在补完AIGC工业化的最后一块拼图。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1