Stable Diffusion稳定的扩散 WebUI AUTOMATIC1111：初学者指南

作者：科技前沿AI发布时间：2023-05-22

Stable Diffusion web UI（简称 AUTOMATIC1111 或 A1111）是高级用户事实上的 GUI。大多数新功能首先出现在这个免费的 Stable Diffusion GUI 中。但它并不是最容易使用的软件，缺少文档。它提供的大量功能可能令人生畏。
本指南将教您如何使用 AUTOTMATIC1111 GUI。您可以将其作为教程。您可以逐步遵循大量示例。
您会看到许多示例来说明设置的效果，因为我相信这是唯一可以说服你的方法。
内容
文本到图像选项卡
基本用法
图像生成参数
种子
额外的种子选项
还原人脸
平铺
雇用。使固定。
Generate 按钮下的按钮
图像文件操作
img2img 选项卡
图像到图像
草图
修复
修补素描
修复上传
批
从图像中获取提示
升级
基本用法
升级器
面部修复
巴布亚新几内亚信息
检查点合并
火车
设置
面部修复
稳定扩散
阅读快速入门指南以决定使用哪种稳定扩散。
文本到图像选项卡
首次启动 GUI 时，您将看到txt2img选项卡。此选项卡执行 Stable Diffusion 的最基本功能：将文本提示转换为图像。

基本用法
如果这是您第一次使用 AUTOMATIC1111，您可能希望更改这些设置。

稳定扩散检查点：选择您想要的模型。初次使用的用户可以使用v1.5 基础模型。
提示：描述您想在图像中看到的内容。下面是一个例子。有关教程，请参阅提示构建的完整指南。
萨尔瓦多·达利 (Salvador Dali) 的超现实主义猫画
宽度和高度：输出图像的大小。使用 v1 模型时，您应该至少将一侧设置为 512 像素。例如，对于纵横比为 2:3 的肖像图像，将宽度设置为 512，将高度设置为 768。
Batch size：每次要生成的图像数量。您希望在测试提示时至少生成一些，因为每个都会有所不同。
最后，点击生成按钮。稍等片刻后，您将获得图像！

默认情况下，您将获得合成缩略图的附加图像。
您可以将图像保存到本地存储。首先，使用主图像画布下方的缩略图选择图像。右键单击图像以调出上下文菜单。您应该可以选择保存图像或将图像复制到剪贴板。
这就是您需要了解的所有基础知识！本节的其余部分将更详细地解释每个功能。
图像生成参数

Txt2img 选项卡。
Stable Diffusion 检查点是一个用于选择模型的下拉菜单。您需要将模型文件放在文件夹stable-diffusion-webui> models>中Stable-diffusion。
下拉菜单旁边的刷新按钮用于刷新模型列表。当您刚刚将新模型放入模型文件夹并希望更新列表时使用它。
提示文本框：把你想在图像中看到的内容。要详细和具体。使用一些经过验证的关键字。您可以在此处找到简短列表或在提示生成器中找到更广泛的列表。
否定提示文本框：把你不想看到的东西放上去。使用 v2 模型时应使用否定提示。您可以使用通用否定提示。
采样方法：去噪过程的算法。我使用DPM++ 2M Karras，因为它很好地平衡了速度和质量。您可能希望避免使用任何祖先采样器（带有a的采样器），因为即使在较大的采样步骤中，它们的图像也不稳定。这使得调整图像变得困难。
采样步骤：去噪过程的采样步骤数。越多越好，但也需要更长的时间。25 个步骤适用于大多数情况。
宽度和高度：输出图像的大小。对于 v1 模型，您应该至少将一侧设置为 512 像素。例如，对于纵横比为 2:3 的肖像图像，将宽度设置为 512，将高度设置为 768。使用 v2-768px 模型时，至少将一侧设置为 768。
批次计数：运行图像生成管道的次数。
批量大小：每次运行管道时要生成的图像数。
生成的图像总数等于批计数乘以批大小。您通常会更改批量大小，因为它更快。如果遇到内存问题，您只会更改批次计数。
CFG scale : Classifier Free Guidance scale 是一个参数，用于控制模型应在多大程度上尊重您的提示。
1 – 大多忽略你的提示。
3 – 更有创意。
7 – 遵循提示和自由之间的良好平衡。
15 – 更加遵守提示。
30 – 严格按照提示操作。
下图显示了使用固定种子值更改 CFG 的效果。您不想将 CFG 值设置得太高或太低。如果 CFG 值太低，Stable Diffusion 将忽略您的提示。当它太高时，图像的颜色会饱和。
种子
种子：用于在潜在空间中生成初始随机张量的种子值。实际上，它控制图像的内容。生成的每个图像都有自己的种子值。如果设置为 -1，AUTOMATIC1111 将使用随机种子值。
修复种子的一个常见原因是修复图像的内容并调整提示。假设我使用以下提示生成了图像。
女人，裙子，城市夜景背景的照片

我喜欢这张图片并想调整提示以将手镯添加到她的手腕上。您将种子设置为此图像的值。种子值位于图像画布下方的日志消息中。

图像的种子值（突出显示）在日志消息中。
将该值复制到种子值输入框。或者使用回收按钮复制种子值。

现在在提示中添加术语“手镯”
女人，裙子，城市夜景背景，手镯的照片
你会得到一张类似的照片，她的手腕上戴着手镯。

场景可能会完全改变，因为某些关键词的强度足以改变构图。您可以在稍后的抽样步骤中尝试交换关键字。
使用骰子图标将种子设置回 -1（随机）。

额外的种子选项
检查额外选项将显示额外种子菜单。

变体种子：您要使用的附加种子值。
变异强度：种子与变异种子之间的插值程度。将其设置为 0 使用种子值。将其设置为 1 使用变化种子值。
这是一个例子。假设您从相同的提示和设置生成了 2 个图像。它们有自己的种子值，1 和 3。

第一张图片：种子值为 1。

第二张图片：种子值为 3。
您想要生成这两个图像的混合。您可以将种子设置为 1，将变化种子设置为 3，并在 0 和 1 之间调整变化强度。在下面的实验中，变化强度允许您在两个种子之间产生图像内容的过渡。当变化强度从 0 增加到 1 时，女孩的姿势和背景逐渐变化。

从宽度/高度调整种子大小：即使您使用相同的种子，如果更改图像大小，图像也会发生显着变化。此设置尝试在调整图像大小时修复图像的内容。您将在宽度和高度滑块中放置新尺寸，并在此处放置原始图像的宽度和高度。将原始种子值放入种子输入框。将变异强度设置为 0 以忽略变异种子。
假设您喜欢这张 512×800 的图像，种子值为 3。
512×800
当您更改图像大小时，即使保持相同的种子值，构图也会发生巨大变化。

512×600
512×744设置不同的尺寸会显着改变图像。
当您从高度和宽度设置中打开调整大小种子时，您将获得更接近原始尺寸的新尺寸。它们并不完全相同，但它们很接近。

512×600
512×744使用调整大小种子选项，图像更接近原始图像。
还原人脸
Restore faces应用了一个额外的模型，该模型经过训练可以恢复面部缺陷。以下是之前和之后的例子。

原来的
面部修复
在使用Restore Faces之前，您必须指定要使用的面部恢复模型。首先，访问“设置”选项卡。导航到面部修复部分。选择面部修复模型。CodeFormer是一个不错的选择。将 CodeFormer 权重设置为 0 以获得最大效果。请记住单击“应用设置”按钮以保存设置！

返回到txt2img选项卡。检查恢复面孔。面部恢复模型将应用于您生成的每张图像。
如果您发现该应用程序影响面部样式，您可能需要关闭面部修复。或者，您可以增加 CodeFormer 权重参数以降低影响。
平铺
使用平铺选项生成可以平铺的周期性图像。下面是一个例子。
花朵图案

此图像可以像墙纸一样平铺。

2×2 平铺。
使用 Stable Diffusion 的真正宝藏是允许您创建任何图像的图块，而不仅仅是传统图案。您所需要的只是提出一个文本提示。

雇用。使固定。
高分辨率修复选项应用升频器来放大图像。您需要这个，因为 Stable Diffusion 的原始分辨率是 512 像素（或某些 v2 模型的 768 像素）。图像对于许多用途来说太小了。
为什么不能将宽度和高度设置得更高，比如 1024 像素？偏离原始分辨率会影响构图并产生问题，例如生成带有两个头像的图像。
所以必须先生成两边512像素的小图。然后将其放大到更大的。

检查雇用。fix以启用高分辨率修复。
升频器：选择要使用的升频器。
各种Latent upscaler 选项在潜在空间中缩放图像。它是在文本到图像生成的采样步骤之后完成的。该过程类似于图像到图像。
其他选项是传统和 AI 升频器的混合。
雇用步骤：仅适用于潜在的升级者。它是放大潜像后的采样步数。
去噪强度：仅适用于潜在的升级器。该参数与image-to-image中的含义相同。它控制在执行 Hires 采样步骤之前添加到潜像的噪声。

现在让我们看看将下面的图像放大到 2 倍的效果，使用latent作为放大器。

原图

0.65
0.9latent upscaler 的去噪强度必须高于 0.5。否则，您会得到模糊的图像。
由于某种原因，它必须大于 0.5 才能获得清晰的图像。将它设置得太高会使图像发生很大变化。
使用潜在的放大器的好处是没有像 ESRGAN 这样的其他放大器可能引入的放大伪像。Stable Diffusion 的解码器生成图像，确保风格一致。缺点是它会在一定程度上改变图像，这取决于去噪强度的值。
放大系数控制图像的放大倍数。例如，将其设置为 2 会将 512 x 768 像素的图像缩放为 1024 x 1536 像素。
或者，您可以指定“resize width to”和“resize height to”的值来设置新的图像大小。
您可以通过使用像 ESRGAN 这样的 AI upscalers 来避免设置正确的去噪强度的麻烦。一般而言，将 txt2img 和放大分为两个步骤可为您提供更大的灵活性。我不使用高分辨率修复选项，而是使用额外页面进行放大。
Generate 按钮下的按钮

从左到右：

阅读最后的参数：它将填充所有字段，以便您在按下“生成”按钮时生成相同的图像。请注意，将设置种子和模型覆盖。如果这不是您想要的，请将种子设置为 -1 并删除覆盖。
种子值和模型覆盖突出显示。
2.垃圾桶图标：删除当前提示和否定提示。
3.模型图标：显示额外的网络。此按钮用于将超网络、嵌入和LoRA短语插入到提示中。
您可以使用以下两个按钮加载和保存提示和否定提示。该集合称为样式。它可以是一个简短的短语，例如艺术家的名字，也可以是一个完整的提示。
4.加载样式：您可以从下面的样式下拉菜单中选择多种样式。使用此按钮将它们插入到提示和否定提示中。
5.保存样式：保存提示和否定提示。您需要为样式命名。
图像文件操作

您会发现一排按钮，用于对生成的图像执行各种功能。从左到右…
打开文件夹：打开图像输出文件夹。它可能不适用于所有系统。
保存：保存图像。单击后，它会在按钮下方显示一个下载链接。如果您选择图像网格，它将保存所有图像。
Zip：压缩图像以供下载。
发送到 img2img：将所选图像发送到 img2img 选项卡。
Send to inpainting : 将选中的图片发送到 img2img 选项卡中的 inpainting 选项卡。
发送到 extras：将所选图像发送到 Extras 选项卡。
img2img 选项卡
img2img 选项卡是您使用图像到图像功能的地方。大多数用户会访问此选项卡以修复图像并将图像转换为另一个图像。
图像到图像
img2img 选项卡中的一个日常用例是做……图像到图像。您可以创建遵循基本图像组成的新图像。
第一步：将基础图片拖放到img2img页面的img2img选项卡中。

基本图像。
第 2 步：调整宽度或高度，使新图像具有相同的纵横比。您应该会在图像画布中看到一个指示纵横比的矩形框。在上面的横向图像中，我将宽度设置为 760，同时将高度保持在 512。
第三步：设置采样方式和采样步骤。我通常使用 25 个步骤的 DPM++ 2M Karass。
第 4 步：将批量大小设置为 4。
第 5 步：为新图像编写提示。我将使用以下提示。
龙的真实感插图
第 6 步：按生成按钮生成图像。调整去噪强度并重复。下面是具有不同去噪强度的图像。

0.4
0.6
0.8img2img 生成的具有各种去噪强度的图像。
许多设置与 txt2img 共享。我只会解释新的。
调整大小模式：如果新图像的纵横比与输入图像的纵横比不同，有几种方法可以调和差异。
“ Just resize ”缩放输入图像以适应新的图像尺寸。它会拉伸或挤压图像。
“裁剪和调整大小”使新图像画布适合输入图像。不适合的部分被移除。原始图像的纵横比将被保留。
“调整大小并填充”将输入图像适合新图像画布。额外的部分用输入图像的平均颜色填充。纵横比将被保留。
“Just resize (latent upscale)”

类似于“Just resize”，但缩放是在潜在空间中完成的。使用大于 0.5 的去噪强度以避免图像模糊。
只需调整大小
裁剪和调整大小
调整大小并填充
只需调整大小（潜在高档）调整模式
去噪强度：控制图像变化的程度。如果设置为 0，则没有任何变化。如果设置为 1，则新图像不会跟随输入图像。0.75 是一个很好的起点，它有很多变化。
您可以使用内置脚本poor man's outpainting：用于扩展图像。请参阅涂装指南。
草图
您可以勾画初始图片，而不是上传图片。启动 webui 时，您应该使用以下参数启用彩色草图工具。（它已经在快速入门指南中的Google Colab notebook中启用）
--gradio-img2img-tool color-sketch
第 1 步：导航到img2img 页面上的草图选项卡。
第 2 步：将背景图像上传到画布。您可以使用下面的黑色或白色背景。
黑色背景

白色背景

第 3 步：绘制您的创作草图。启用彩色素描工具后，您应该能够进行彩色素描。
第 4 步：编写提示。
获奖的房子
第 5 步：按生成。

为图像到图像绘制您自己的图片。
你不必从头开始画东西。您可以使用草图功能修改图像。下面是一个示例，通过将辫子涂在上面并进行一轮图像到图像来移除辫子。使用滴管工具从周围区域中选择一种颜色。

修复
也许img2img选项卡中最常用的功能是修复。您在 txt2img 选项卡中生成了您喜欢的图像。但是有一个小缺陷，你想重新生成它。
假设您在txt2img选项卡中生成了以下图像。你想重新生成人脸，因为它是乱码。您可以使用发送到修复按钮将图像从txt2img选项卡发送到img2img选项卡。

当切换到 img2img 页面的 Inpaint 选项卡时，您应该会看到您的图像。使用画笔工具在要重新生成的区域上创建一个蒙版。

图片大小等参数设置正确，因为你使用了“发送到修复”功能。你通常会调整
去噪强度：从 0.75 开始。减少改变更多。增加改变较少。
面膜内容：原装
蒙版模式：修复蒙版
批量大小：4
按生成按钮。选择一个你喜欢的。

修补素描
Inpaint sketch 结合了修复和素描。它可以让您像在草图选项卡中一样进行绘画，但只会重新生成绘画区域。未上漆的区域没有变化。下面是一个例子。

修补素描。

来自修补草图的结果。
修复上传
Inpaint upload 允许您上传单独的遮罩文件而不是绘制它。
批
Batch 让您可以为多个图像修复或执行图像到图像。
从图像中获取提示
AUTOMATIC1111 的Interogate CLIP按钮将您上传的图像带到 img2img 选项卡并猜测提示。当您想处理您不知道提示的图像时，它很有用。要从图像中获得猜测的提示：
第 1 步：导航到img2img 页面。
第 2 步：将图像上传到img2img 选项卡。
第 3 步：单击询问 CLIP按钮。

提示文本框中将出现提示。
Interrogate DeepBooru按钮提供了类似的功能，除了它是为动画图像设计的。
升级
您将转到用于放大图像的额外页面。为什么需要 AUTOMATIC1111 来放大图像？您可以使用PC 上通常不可用的AI 升频器。无需支付 AI 升级服务费用，您可以在此处免费进行。
基本用法
按照以下步骤升级图像。
第 1 步：导航到“额外”页面。
第 2 步：将图像上传到图像画布。
第 3 步：在调整大小标签下设置Scale by factor 。新图像的每一侧都会大很多倍。例如，一张 200×400 的图像将变为 800×1600，比例因子为 4。
第 4 步：选择 Upscaler 1. 流行的通用 AI upscaler 是 R-ESRGAN 4x+。
第 5 步：按生成。你应该在右边得到一个新图像。

确保以全分辨率检查新图像。例如，您可以在新选项卡中打开新图像并禁用自动调整。如果缩小，放大器可能会产生您可能会忽略的伪像。
例如，即使您不需要放大 4 倍，它仍然可以将其放大到 4 倍并稍后调整大小。这可能有助于提高清晰度。
缩放至：您可以在“缩放至”选项卡中指定要调整大小的尺寸，而不是设置比例因子。
升级器
AUTOMATIC1111 默认提供一些升频器。

升频器：升频器下拉菜单列出了几个内置选项。您也可以安装自己的。有关说明，请参阅AI 升频器文章。
Lanczos和Nearest是老派的高端品牌。它们没有那么强大，但行为是可以预测的。
ESRGAN、R-ESRGAN、ScuNet和SwinIR是 AI 升级器。他们可以从字面上编造内容以提高分辨率。有些人接受过粒子风格的训练。找出它们是否适用于您的图像的最佳方法是测试它们。我现在听起来像是一张破唱片，但一定要以全分辨率仔细查看图像。
Upscaler 2：有时，您想结合两个 upscaler 的效果。此选项可让您合并两个升频器的结果。混合量由Upscaler 2 Visibility滑块控制。较高的值显示更多的 upscaler 2。
找不到您喜欢的升级器？您可以从模型库中安装额外的升频器。请参阅安装说明。
面部修复
您可以选择在放大过程中恢复面孔。有两个选项可用：(1) GFPGAN 和 (2) CodeFormer。设置其中任何一个的可见性以应用更正。作为缩略图的规则，您应该设置可以避免的最低值，这样图像的风格就不会受到影响。

巴布亚新几内亚信息

许多 Stable Diffusion GUI，包括 AUTOMATIC1111，将生成参数写入图像 png 文件。这是一个方便的快速取回生成参数的函数。
如果图像是由 AUTOMATIC1111 生成的，您可以使用发送到按钮将参数快速复制到各个页面。
当您在网络上找到图像并想查看提示是否留在文件中时，它很有用。
即使对于未生成的图像，此功能也可能有帮助。您可以快速将图像及其尺寸发送到页面。
检查点合并
AUTOMATIC1111 的检查点合并用于合并两个或多个模型。您最多可以组合 3 个模型来创建一个新模型。它通常用于混合两个或多个模型的样式。但是，不能保证合并结果。它有时会产生不需要的伪影。
主要模型（A、B、C）：输入模型。合并将根据显示的公式完成。公式将根据所选的插值方法而改变。
插值方法：
无插值：仅使用模型 A。这用于文件转换或替换VAE。
Weighted sum : 合并两个模型 A 和 B，对 B 应用乘数权重 M。公式为 A * (1 – M) + B * M。
添加差异：使用公式 A + (B – C) * M 合并三个模型。
检查点格式
ckpt：原始检查点模型格式。
safetensors：SafeTensors是 Hugging Face 开发的一种新的模型格式。它是安全的，因为与 ckpt 模型不同，加载 Safe Tensor 模型不会执行任何恶意代码，即使它们在模型中也是如此。
Bake in VAE：用所选的解码器替换VAE 解码器。它是为了用 Stability 发布的更好的版本替换原来的版本。
火车
训练页面用于训练模型。它目前支持文本反转（嵌入）和超网络。我在使用 AUTOMATIC1111 进行训练时运气不好，所以我不会介绍这一部分。
设置
AUTOMATIC1111 的设置页面上有大量设置列表。我无法在本文中逐一介绍它们。这里有一些你想检查的。
确保在更改任何设置后单击应用设置。
面部修复
确保选择默认的面部恢复方法。CodeFormer是一个很好的工具。可以自行下载。

近期资讯

在轨实施181个项目！报告首次发布→
据中国载人航天工程办公室消息，12月30日，在即将迎来中国空间站全面建成两周年之际，该办公室首次公开发布《中国空间站科学研究与应用进展报告》（2024年）（以下简称《报告》）。
光明网 2024-12-30

英伟达押注下一个增长点：“人形机器人大脑”Jetson Thor预计明年上半年上市
面对芯片业务日益激烈的竞争，英伟达正在押注机器人技术作为其下一轮增长的主要驱动力。12月29日，《金融时报》报道，英伟达将在2025年进一步加大对机器人技术的投入，在明年上半年推出新一代用于人形机器人的紧凑型计算机JetsonThor。
华尔街见闻 2024-12-30

用AI之眼探索万物，支付宝上线“探一下”

12月30日，支付宝推出新一代AI视觉搜索产品“探一下”，基于自研的多模态大模型技术，可“用AI之眼探索万物”，提供更快速、有用、趣味的生成式搜索服务。用户遇到感兴趣的事物，就能让AI通过摄像头，识别花草宠物和潮玩、做旅游的随身讲解、查询商品药品详情等，还能趣味解读萌宠照、宝宝照等，晒图不愁配文案。

扬子晚报 2024-12-30

微星发布全新显示器型号MPG-325CQRXF 支持AI Vision
这款产品配备了一块31.5英寸的RapidVA曲面屏，其曲率为1000R，分辨率达到2560x1440，并且支持刷新率在48至280Hz之间。响应时间达到0.5msGTG，最大亮度可达350cd/m2，峰值亮度可达到400cd/m2。
中关村在线 2024-12-30

用友：20个“关键词”解码2024大型企业数智化
2024年是大型企业数智化转型的加速之年，我们见证了大型企业数智化转型的跨越式发展!AI、大数据、云计算快速发展，成为企业数智化核心技术，众多领先企业积极探索技术与应用的融合，持续提升运营效率与决策精准度。
中国财富网 2024-12-30

科创解码｜对话张波：新材料助力绿水青山，“绿氢”来了

地球上70%是水，水里是氢和氧，这样看来氢的含量非常多。怎么把这个成本降下来？张波说，如果用了更低价格的绿电产出来的氢气，比如一度电降到两毛钱以内，一公斤氢气10块钱都不到，那交通成本的价格也会降下来，氢能燃料电池汽车也有望更加普及、走向社会。

东方网 2024-12-30

第三届重庆市青少年智能机器人编程大赛决赛举行
12月28日，第三届重庆市青少年智能机器人编程大赛决赛在垫江三合湖城市博览中心举行。据了解，该比赛自2020年以来已成功举办三届，吸引了来自全市41个区县的十余万名选手参赛，是重庆市青少年科普教育的重要活动之一。
央广网 2024-12-30

Magic7 RSR保时捷亮相，荣耀宣布全面升级大王影像
近日，荣耀Magic7RSR保时捷设计及影像技术发布会上，荣耀正式宣布Magic7系列将全面升级“大王影像”，以人性化的摄影体验为核心目标，重塑摄影体验新境界。全新端侧AIRAW大模型技术，让手机可以充分释放传感器极限解析力，重点提升12x-30x焦段中高倍望远拍摄的照片画质。
三湘都市报 2024-12-30

Stable Diffusion稳定的扩散 WebUI AUTOMATIC1111：初学者指南

推荐体验

相关资讯

AIGC初学者：Stable Diffusion高效实操指南

看完这篇文章，你还会用再用AUTOMATIC1111 WebUI吗？

chatGPT教程：初学者入门指南

大型语言模型 (LLM) 初学者指南

机器学习 100 天 – 初学者完整指南

近期资讯

在轨实施181个项目！报告首次发布→

英伟达押注下一个增长点：“人形机器人大脑”Jetson Thor预计明年上半年上市

用AI之眼探索万物，支付宝上线“探一下”

微星发布全新显示器型号MPG-325CQRXF 支持AI Vision

用友：20个“关键词”解码2024大型企业数智化

科创解码｜对话张波：新材料助力绿水青山，“绿氢”来了

第三届重庆市青少年智能机器人编程大赛决赛举行

Magic7 RSR保时捷亮相，荣耀宣布全面升级大王影像

SIE CEO：PS5硬件质量过硬会有很长的生命周期

二次元风拉满！华硕ROG STRIX Z890-H GAMING WIFI S主板图赏

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响