造梦师手记：腾讯加入Stable Diffusion的ControlNet模型开发，效果艳丽

作者：铁华团的黄金船发布时间：2023-07-08

腾讯 Stable Diffusion AI大模型

周末读了一篇ghostmix模型作者的文章，也引起了我对Stable Diffusion发展方向的思考。

由于访问C站需要科学上网，很长一段时间国内获取AI大模型的方式比较不便。近期随着liblibai等国内AI绘画网站的加入，并通过资本拿真金白银激励创作者，甚至掀起了一股模型创作热潮。

但是，量多不代表质优。

很多所谓大模型不过是融了几个热门lora，并没有真正经过原始图片的训练过程。

形成了ckpt的lora化，这是一个很不好的风向。真正潜心做模型的创作者，甚至陷入了低谷。

ghostmix模型作者认为，应该尽可能的少做大模型，然后使用lora、ControlNet等微调工具来适配更多的场景。

私以为，这个思路是非常正确的。虽然我有4T的SSD不担心下载模型，但是越来越多的模型，动辄3、5个G起步，会大大抬高Stable Diffusion的门槛。

新版的Stable Diffusion XL 0.9刚刚发布（我正在调试，过几天会发个“迟到”但会非常细致的保姆级教程），基础模型更是达到了惊人的13G，如果模型这么泛滥下去，4T的SSD怕是也不够用。

一、ControlNet的革命

ControlNet是一位年轻的斯坦福大学的华人选手创作的，Lvmin Zhang，2021 年本科毕业，现为斯坦福 PHD，并发布了论文阐述其原理。

其实在AI领域，华人非常优秀，大量的AI论文都会看到汉语拼音。

ControlNet用一种极低成本的方案，来控制画面的主体构成。当然，这只是使用者的角度，原作者还是成本（时间、精力等成本，费用反而不算高）很高的。

ControlNet 在论文里提到，Canny Edge detector 模型的训练用了 300 万张边缘-图像-标注对的语料，A100 80G 的 600 个 GPU 小时。Human Pose （人体姿态骨架）模型用了 8 万张姿态-图像-标注对的语料, A100 80G 的 400 个 GPU 时。

二、腾讯做的一点点工作

在大模型“群模乱舞”的时代，阿里、百度甚至科大讯飞都拿出面向C端的可用的产品，而腾讯一直表现非常低调。

是腾讯缺乏技术吗？

非也。

我本人常年撰写公众号，对公众号的广告推流逻辑进行过细致的分析，大致可以得出结论，至少在广告推荐系统中，腾讯早就使用了专用大模型。

腾讯没有市值管理的需要，也没有业绩之忧，从经营的视角看，比较踏实（其他视角大家观点各异，在此不表），在大模型领域声音比较小，也很正常。

T2I-Adapter 的训练是在 4 块 Tesla 32G-V100 上只花了 2 天就完成，包括 3 种 condition，sketch（15 万张图片），Semantic segmentation map（16 万张）和 Keypose（15 万张）。

腾讯做的T2I-Adapter和ControlNet有一定的相似性，但从论文看，二者的思路又不完全一样。

发布 T2I-Adapter 的腾讯 ARC 是腾讯关注智能媒体相关技术的事业群，以视觉、音频和自然语言处理为主要方向。

从某种意义上讲，二次元最强大的公司，是腾讯，真心希望Lvmin Zhang能和腾讯ARC珠联璧合。

这两套模型都被Stable Diffusion官方致谢，并将集成入官方代码库。

两套模型有什么区别吗？

ControlNet 目前提供的预训模型，可用性完成度更高，支持更多种的 condition detector （9 大类）。

T2I-Adapter 在工程上设计和实现得更简洁和灵活，更容易集成和扩展”此外，T2I-Adapter 支持一种以上的 condition model 引导，比如可以同时使用 sketch 和 segmentation map 作为输入条件，或在一个蒙版区域 (也就是 inpaint ) 里使用 sketch 引导。

三、做个对比

C站有人把腾讯的9个T2I-Adapter 模型进行了梳理和转化，整理成safetensors格式，并做好了配置文件，拷贝到ControlNet的模型库里，直接使用ControlNet调用即可。

模型库路径：extensions\sd-webui-controlnet\models

T2I-Adapter 模型下载地址（yaml文件需要一起下载）：

https://www.123pan.com/s/ueDeVv-KJ0I.html 提取码:lgyh

先试试最常用的openpose模型。

1、ControlNet标准模型

模型：MoonMix_Utopia_3.0（大家可能发现我最近真人模型基本只用这个，是因为这个模型相对“真实”）

提示词：

<lora:school_rooftop_v0.1:1> school rooftop, 1girl, school uniform, building, chain-link fence, wind lift, skirt tug,, masterpiece, best quality, highly detailed

负面提示词：

nsfw,logo,text,badhandv4,EasyNegative,ng_deepnegative_v1_75t,rev2-badprompt,verybadimagenegative_v1.3,negative_hand-neg,mutated hands and fingers,poorly drawn face,extra limb,missing limb,disconnected limbs,malformed hands,ugly

啊，小姐姐你站在楼顶干什么！

2、T2I-Adapter模型

除了模型换成T21Adapter对应的openpose外，其余的保持不变。

从构图方面看，大同小异，基本都按照pose的构图来生成，但画面的色彩方面，略有差异，T21Adapter的画面更有胶片感。

C站上传这组模型的作者是theally，从发布的各种模型和作品看，大概率是一位女性。

她自称从事艺术方面的培训，之所以推荐T21Adapter的模型，是因为：可以产生与官方ControlNet模型相似的结果，但增加了样式和颜色功能。

另外，我发现T21Adapter的模型每个大多300m左右，而ControlNet标准模型每个1.3G左右，效果上二者区别不大，对于硬盘空间不足的选手，T21Adapter也是值得推荐的。

四、下载

1、官方下载：

https://huggingface.co/TencentARC/T2I-Adapter/tree/main/models

注意官方下载的pth文件不能直接用，需要自己做配置。

2、C站theally转换好的直接可用下载：

（yaml文件需要一起下载）

https://www.123pan.com/s/ueDeVv-KJ0I.html 提取码:lgyh

相关资讯

造梦师手记：腾讯加入Stable Diffusion的ControlNet模型开发，效果艳丽

推荐体验

相关资讯

造梦师手记：用ControlNet教会Stable Diffusion画出完美手型

造梦师手记：Stable Diffusion男人最喜欢的模型

造梦师手记：Stable Diffusion胶片级画质模型

造梦师手记：打不过就加入，Stable Diffusion迎来画师选手

造梦师手记：超养眼的Stable Diffusion微调模型：洛丽塔

近期资讯

华为手机GPS功能使用指南：开启、设置与小技巧

全面解析苹果X：经典手机的使用技巧与功能揭秘

浙江伟臻取得改良型五防联锁开关柜壳体专利，侧板与柜体拆卸简单

杭州森阳机械取得方便调节的高强度机柜专利，具有调节灵活等有益效果

华为手机一键锁屏功能详解与个性化设置指南

合肥奇屹光伏取得一种光伏储能用控制柜专利，提高空间利用率

扬州森源电气取得方便拆装的低压配电柜专利，避免因配电柜内部空间不大对安装造成干扰

苹果备忘录字数统计技巧：提升写作效率的方法与工具

金盘新能源取得多功能高压柜专利，能对电压实时监测

三星电视评测：画质、智能、设计与音质全面解析

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响