【AI绘画实战-01】Stable Diffusion超详细教程

作者：胡侃带你吃瓜发布时间：2023-06-03

大家好，我是海煌，今天给大家带来的是AI绘画系列实战训练之Stable Diffusion。

同步带来的还有PS Beta 爱国版和midjourney保姆级教程，稍后移步到对应文档可进行查看。

花了三天三夜终于整理好了这三份保姆级AI绘画实战教程！

从软件获取到部署安装，以及界面各项功能说明，再到实战案例制作，以及扩展功能和注意事项都有详细的说明，每一步都是亲自实操，而且进行案例演示，让大家正在能做到，看了跟着做了，就一定可以做出效果！

同时，无论是PS Beta （后续简称PS）爱国版还是Stable Diffusion(后续简称SD)，midjourney（后续简称MY）涉及的安装包，对应需要的模型，配套文件，关键词，网站等所有信息，我都打包好了，并且在文末免费分享给大家！

AI绘画简述

一，什么是AI绘画

Ai绘画简单的说就是是一款图片生成工具，它能根据我们输入的关键词，对应的信息，自动的生成所需要的图片，这些图片丝毫不比大师绘画差，绘画出的真人可以以假乱真。

下面这幅由AI生成的数字油画参加了Colorado博览会的艺术比赛，并且获得了第一名。

二，AI绘画原理是怎样的

不同的AI在技术结构上有稍微差异，比如SD来说

由三个部分组成language model、diffusion model和decoder。

Language model主要将输入的文本提示转化为可以输入到diffusion model使用的表示形式，通常使用embedding加上一些random noise输入到下一层。

diffusion model主要是一个时间条件U-Net，它将一些高斯噪声和文本表示作为模型输入，将对应的图像添加一点高斯噪声，从而得到一个稍微有噪点的图像，然后在时间线上重复这个过程，对于稍微有噪点的图像，继续添加高斯噪声，以获得更有噪点的图像，重复多次到几百次后就可以获得完全嘈杂的图像。这么做的过程中，知道每个步骤的图像版本。然后训练的NN就可以将噪声较大的示例作为输入，具有预测图像去噪版本的能力。

在训练过程中，还有一个encoder，是decoder的对应部分，encoder的目标是将输入图像转化为具有高语义意义的缩减采样表示，但消除与手头图像不太相关的高频视觉噪声。这里的做法是将encoder与diffusion的训练分开。这样，可以训练encoder获得最佳图像表示，然后在下游训练几个扩散模型，这样就可以在像素空间的训练上比原始图像计算少64倍，因为训练模型的训练和推理是计算最贵的部分。

decoder的主要作用就是对应encoder的部分，获得扩散模型的输出并将其放大到完整图像。比如扩散模型在64x64 px上训练，解码器将其提高到512x512 px。

DALL-E 2

DALL-E 2其实是三个子模块拼接而成的，具体来说：

一个基于CLIP模型的编码模块，目标是训练好的文本和图像encoder，从而可以把文本和图像都被编码为相应的特征空间。

一个先验（prior）模块，目标是实现文本编码到图像编码的转换。
一个decoder模块，该模块通过解码图像编码生成目标图像。

是不是感觉像天书一样？

其实我也不懂，但是这并不妨碍你使用！

三，AI绘画可以做什么

1，AI美女

不知道你在某音或者朋友圈有没有刷到过这种图片

都是AI生成的真人美女，肤白貌美大长腿！

你想不想拥有一个自己的AI闺蜜？AI老婆？通通帮你实现

2，头像

想要一个你的专属头像吗？

上传图片一键转换，情侣必备！

3，动漫

可以将图片进行动漫化，可爱呆萌统统都要！

4，壁纸

可以生成手机桌面壁纸

5，表情包

可以制作专属表情包

晚点海煌会分享一些变现实操方式。（海煌V，♥：YRWZWQ）

接下来，正文开始，一起开启AI绘画之旅！

Stable Diffusion 篇

1，环境确认

为了让大家能顺利使用和安装好SD，更好的体验，首先我们需要确认下电脑配置。

如果是你是CPU 8G以上N卡，且运行内存32G以上，win10及以上系统，你可以直接看第3项，如果你是A卡或者是MAC系统看第2项。

1.1，电脑规格查看

右键我的电脑，属性栏目，可以看到你的电脑规格

如下是win10 系统

1.2，内存查看

按键：ctrl+alt+del 调出电脑任务管理器

点击性能可以查看相关参数

如下图所示，可以查看运行内存（注意这里不是存储内存）

如果是10G左右，说明达到了入门级别的要求

如果是达到32G以上，那么恭喜你，基本可以非运行非常的流畅

1.3，GPU查看

GPU也就是显卡，它是AI运行的核心，后续分享的AI数字人，AI翻唱等都是所有模型，都是对此有要求。

重点确认两点

显卡名称

右上角可以看到你的显卡名字,如果是NVIDIA就是N卡，如果是AMD就是A卡，如果intel就是集中式显卡

如果不是N卡的，可以用云端电脑

云端电脑注册使用

GPU内存

如果你的电脑是4G左右，那么你达到了入门门槛，可以跑，但是很慢。

如果你的电脑是6GB左右，那么如果简单的操作一下也是够用的。

如果你的电脑是8GB左右，那么SD所有的功能都可以用的非常的好，出图很快。

2，低配置或mac看这里

如果式Win7和mac或者性能不达要求的朋友,可以采用云电脑

什么是云电脑？

简单的说就是通过平台远程控制别人已经配置好的电脑，通过这个电脑你可以训练，也可以处理其他工作

操作方式非常简单，几秒就搞定，海煌做的详细教程如下

云端电脑注册使用

一，云电脑注册

点下发链接进入

http://account.qingjiaocloud.com/signup?inviteCode=FQV3JJX1

输入相关信息进行注册，用户名，密码，以及手机号

完成注册，并下载客户端

二，使用端安装

下载客户端后，进行安装

输入你的账号密码进行登录

进入到云桌面客户端

三，实名认证

没有实名认证无法购买即使用的，点击实名认证中个人认证

然后前往认证，选择人脸识别更加快捷方便

然后进行手机微信扫码，人脸识别

最后完成认证

四，云电脑购买

可以回到网站，选择购买套餐

建议选择AIGC尝鲜版，可以选择小时，也可以选择套餐，这个版的优点是，主机内已经下载好SD本地文件，一键调取使用，非常方便，不用传输文件

选择你的数据中心，选择后需要记住哪个区，稍后使用需要调取相同区，最后配置完成，支付即可

五，云电脑使用

实名购买套餐后，返回电脑客户端，选择你购买的大区，可以看到你购买的电脑，然后选择开机

开机后，点击进入桌面，就可以进入到云端电脑

云端电脑可以理解为，自己电脑不行，然后租了一个性能比较好的电脑，然后远程云端进行办公使用

如果需要使用SD，可以在C盘找到对应文件夹，然后选择启动器，进行启动

打开启动器后，选择一键启动

然后电脑会运行代码，需要稍等一会

最终会启动成功，调取出SD的工作页面

3，本地部署安装

解决好电脑问题后，我们开始正式的使用

首先下载好，海煌给大家准备好的合集包

然后点击秋叶大神整包集成的安装进行解压，如果是云端电脑，可以直接在主机C盘查看到对应集成包

解压注意不要在C盘，文件很大，解压后点启动器进行安装配备电脑环境（云端电脑可以不用安装，已配好）

然后返回到你放置SD文件的目录下，找到启动器，点击

点击一键启动

首次启动需要等待一会，如果运行失败，就是电脑性能不支持，请采用云端电脑

最后启动成功们可以正式开始使用

4，主模型配备

使用之前一定要进行模型选择，根据风格选择不同的模型

SD有主模型也就是基础模型，还有vea模型，textual inversion模型,lora模型,hypenetworks模型

他们具体的作用以及放置的位置，可以参考下发脑图

其他的稍后进行说明，现在主要说一下主模型

打开海煌准备的主模型文件夹

将其中的文件模型复制到下方目录下

\stable-diffusion-webui\models\torch_deepdanbooru

然后返回到操作页面，点击刷新

这样就可以调取你所需要的主模型，用对模型才能做出理想的图片

5，文生图

选择好模型后，文生图也是我们最常用的一个功能

着界面眼花缭乱不知道该如何下手？

不要急，海煌会将每个功能进行演示说明，让你更快上手

5.1，正反向关键词

什么是正向关键词？什么是反向关键词？

简单的说，就是标签，你所希望出现的标签就是正向关键词，你不想它出现的标签就是反向关键词

下面我们来演示一下

其实关键的输入是有技巧的

魔法公式：画质+主体+主体细节+人物服装+其他（背景、天气、构图等）

正向关键词

比如：你需要一个女孩穿着白色连衣裙在草坪上微笑

那么我们该如何写关键词呢？

画质：最好的质量，杰作，超高分辨率，照片真实感，8K

主体：1女孩

主体细节：微笑，精致五官

任务服装：白色连衣裙

其他：草坪

然后我们将这些关键词一起复制到翻译软件

最好的质量，杰作，超高分辨率，照片真实感，8K，1女孩，微笑，精致五官，白色连衣裙，草坪

获得了一些单词，Best quality, masterpiece, ultra-high resolution, photo realism, 8K girl, smile, delicate facial features, white dress, lawn

然后我们将这些词输入到SD中

注意:SD只识别英文，而且每个单词用英文状态下的逗号隔开

反向关键词：

反向关键词也很简单，你不像你的AI老婆多个脚少个头，畸形变异吧，按下面附件单词输入就可以的

(worst quality:2), (low quality:2), (normal quality:2), lowres, ((monochrome)), ((grayscale)), bad anatomy,DeepNegative, skin spots, acnes, skin blemishes,(fat:1.2),facing away, looking away,tilted head, lowres,bad anatomy,bad hands, missing fingers,extra digit, fewer digits,bad feet,poorly drawn hands,poorly drawn face,mutation,deformed,extra fingers,extra limbs,extra arms,extra legs,malformed limbs,fused fingers,too many fingers,long neck,cross-eyed,mutated hands,polar lowres,bad body,bad proportions,gross proportions,missing arms,missing legs,extra digit, extra arms, extra leg, extra foot,teethcroppe,signature, watermark, username,blurry,cropped,jpeg artifacts,text,error,

而且海煌准备了超关键词表，可以自行输入

海煌的关键词分类查询

其他的默认，咱啥也先别动来看一下效果吧，是不是感觉还不错

有的小伙伴就好奇，如果想要全身怎么办？

很简单，输入：full body即可，

上/下半身像：upper/lower body可以进行切换

经验：在做全身的同时记得调整画面大小，比如站立姿态可以酌情调整长高比，如果全身像且图小

可能会导致脸部生成的奇形怪状，小画面适合上半身像,我这种显存不够的只能扣扣索索画

注意，如果图太大，会出现若干人物或者叠两个头两个下半身，注意下你是不是忘记用full body

在足够容纳整个人的长条幅下用upper body大概率会出奇怪玩意

还有的小伙伴要问，草坪不好看，有没有变化快捷换一个，当然可以

Best quality, masterpiece, ultra-high resolution, photo realism, 8K girl, smile, delicate facial features, white dress, lawn