Stable Diffusion的各类模型介绍（Stable Diffusion研习系列03）

作者：虎赳虎叔虎AI发布时间：2023-04-16

Stable Diffusion模型目前有版本1和版本2，2个都是开源的。但1版本使用的是OpenAI的CLIP，2版本用的是OpenCLIP，它是CLIP的开源版本。虽然从解码提示词的角度来说，Stable Diffusion1.5的版本比Stable Diffusion2的版本要表现得更好些，因此，我们比较推荐的是Stable Diffusion1.5版本。

这种不再使用CLIP的转变，可能会为项目贡献者提供一些保护，避免潜在的责任问题，鉴于即将到来的知识产权诉讼浪潮肯定会影响此类模型，这一点很重要。

几类模型详解

今天的学习和汇总，主要内容根据B站的AI次世代博主的内容组织和增加的。有兴趣的可以参考着学习。

【AI绘画入门教程】AI绘画入门模型详解保姆教程 Stable Diffusion模型到哪下载？】 https://www.bilibili.com/video/BV1eL411176f/?share_source=copy_web&;vd_source=96188266665c90578cc52f2450fb0552

【1】大模型/底模型-属于基础模型也叫预调模型

首先介绍的是大模型，是SD能够绘图的基础模型。安装完SD软件后，必须搭配基础模型才能使用。不同的基础模型，其画风和擅长的领域会有侧重。

【2】Lora模型-属于微调模型

介绍：

如果把基础模型比喻作一座房子的地基，那么Lora模型就好比在这个地基上盖起来的房子。我们通常也称为微调模型，用于满足一种特定的风格，或指定的人物特征属性。在数据相似度非常高的情形下，使用微调模型，可以节省大量的训练时间和训练资源，就可以产出我们需要的结果。

获得：

要想获得不同的lora，可以是到网络上C站或国内的AI图站下载。下载后的lora文件直接放到Stable Diffusion安装目录的models的lora目录里。刷新后就可使用。

使用：

点击lora调用按钮后，在tag栏就可以看到一个词条，然后再继续编辑描述语即可。

训练lora的教程B站上很多，也容易让大家看的迷糊，毕竟各有各的炼法，也因为每个人的理解和硬件不同，会有不同操作方式。

这方面的个人心得，也会放在稍后的05期分享中跟大家探讨。

【3】VAE美化模型

VAE，全名Variational autoenconder，中文叫变分自编码器。作用是：滤镜+微调。

有的大模型是会自带VAE的，比如我们常用的Chilloutmix。如果再加VAE则可能画面效果会适得其反。

【4】Embeddings和Hypernetworks个性化模型

Embeddings-也是属于微调模型，Hypernetworks则不太用了。

Embeddings叫文本反转，通过仅使用的几张图像，就可以向模型教授新的概念。用于个性化图像生成。与lora模型一样，Embeddings也必须配合基础模型使用。

【5】DreamBooth模型

DreamBooth，可用于训练预调模型用的。是使用指定主题的图像进行演算，训练后可以让模型产生更精细和个性化的输出图像。

【6】LyCORIS模型

介绍：

此类模型也可以归为Lora模型，也是属于微调模型的一种。一般文件大小在340M左右。不同的是训练方式与常见的lora不同，但效果似乎会更好不少。

其中本人较喜欢的“Miniature world style 微缩世界风格”就属于这类模型。

获得：

但要使用此类微调模型，需要先安装一个locon插件，直接将压缩包解压后放到StableDiffusion目录的extensions目录里。

下载地址：https://github.com/KohakuBlueleaf/a1111-sd-webui-locon

使用：

使用时注意，除了要将lora调入，还要在正向tag开头添加触发词

例如：这个微缩世界风格的lyCORIS的调用，正向描述语如下

mini\(ttp\), (8k, RAW photo, best quality, masterpiece:1.2), island, cinematic lighting,UHD,miniature, landscape, Crystal ball,on rock, <lora:miniatureWorldStyle_v10:0.8>

训练：

对此类模型的训练有兴趣的，可以参看：

【Stable Diffusion风格化LyCORIS（LoCon和LoHa）_ LoRA】 https://www.bilibili.com/video/BV1XL411X7n5/?share_source=copy_web&;vd_source=96188266665c90578cc52f2450fb0552