介绍
所以你已经采取了行动并安装了稳定扩散。但这不太像 Dalle2。到处都是滑块、不同的扩散器、种子……足以让任何人头晕目眩。但别担心。一旦你熟悉了这些设置,它们将为你带来更好的体验。在本指南中,我将讨论如何使用稳定扩散生成 text2image 图稿。我将介绍基本的提示理论、不同设置的作用以及在什么情况下你可能需要调整设置。
CFG(分类器免费指导):8
采样步数:50
采样方法:k_lms
随机种子
这些设置完全适合各种提示。这至少会让你玩得很开心。保存这篇文章,当你准备好时再回到本指南。
提示
提示可以很容易地成为一个单独的帖子(如果你喜欢这篇文章并希望我致力于此,请告诉我)。但我可以在这里回顾一些好的做法和粗略的内容。
拥有人工智能图像存储库并包含提示和设置(例如https://lexica.art/)的网站就是你的上帝。翻阅这里并寻找与你想要的类似的东西。或者只是让自己受到启发。记下提示中使用的可生成良好图像的短语。肆意偷窃。混音。逐字窃取他们的提示,然后除掉一名艺术家。会发生什么?玩得开心。最终,在稳定扩散中创建图像的过程是自我驱动的。我无法告诉你该怎么做。
你可以在提示中一次性添加任意数量的内容。不需要一次添加一个短语来查看模型的反应。该模型喜欢震撼和敬畏。通常,提示越长、越详细,结果就越好。花点时间具体一点。我的理论是,人们不会浪费时间详细描述他们不喜欢的图像。人工智能经过奇怪的直觉训练,可以看到“哇这个人对这件作品有很多话要说!” 作为“质量形象”。所以要大胆并具有描述性。请记住,每个提示都有一个令牌限制(我相信)75。为自己准备一个 GUI,它会告诉你何时达到此限制,否则你可能会用头撞桌子:有些 GUI 会很乐意让你添加尽可能多地提示你,同时默默地截断结尾。
如果你的图像在k_euler_a, 步骤 15, CFG 8 (我稍后会深入解释这些设置)中看起来很糟糕(或者远不及你想象的那样),那么乱搞其他设置不会对你有太大帮助。根据提示返回绘图板。在提示工程的早期阶段,你主要关注情绪、构图(主题如何在场景中布置)和颜色。本质上是你的口水。如果它看起来很糟糕,请添加或删除单词和短语,直到它不再看起来很糟糕。尝试调试出了什么问题。查看图像并尝试了解人工智能为何做出这样的选择。你的提示中总是有一个原因(尽管有时该原因可能完全难以理解)。
请允许我简单介绍一下在提示中使用艺术家姓名:使用它们。他们有很大的不同。研究艺术家的技巧也能产生很棒的提示短语。了解粉丝和艺术评论家对艺术家的评价。他们如何描述他们的工作?
请记住标记化:
可怕的沼泽,黑暗,可怕,格雷格·鲁特科斯基
此提示是标记提示的一种可能方法的示例。看到我如何用逗号将描述与心情和艺术家分开了吗?你可以这样做,但你不必这样做。“穆迪·格雷格·鲁特科斯基作品”而不是“格雷格·鲁特科斯基”也很酷而且有效。或者“格雷格·鲁特科斯基的角色概念艺术”。这些类型的变化会对你们几代人产生巨大的影响。要有创意。
只要记住顺序问题即可。提示前面的内容比提示后面的内容权重更大。如果我看到上面的提示并决定想要获得更多的 greg 影响力,我可以重新排序:
格雷格·鲁特科斯基,黑暗,可怕的沼泽,可怕
本质上,提示的每个块都是一个滑块,你可以通过在提示中物理移动它来移动它。如果你的脸不够详细?在前面添加诸如“高度详细的对称面”之类的内容。你的作品有点太暗了?将提示中的“ dark ”移动到最后。AI也注重强调!如果提示中的某些内容对你很重要,请重复得令人厌烦。就像如果我正在想象一个恐怖的作品并且认为上述提示的结果不够可怕,我可能会将其更改为:
格雷格·鲁特科斯基,黑暗,超现实的可怕沼泽,可怕,恐怖,光线不足
想象一下,你正试图获得一个独角兽的玻璃雕塑。你可以添加“玻璃,略透明,由玻璃制成”。同样的重复想法也适用于质量。这就是为什么你会看到许多类似以下的提示:
格雷格·鲁特科斯基,高度详细,黑暗,超现实的可怕沼泽,可怕,恐怖,光线不足,艺术站上的趋势,令人难以置信的构图,杰作
请记住,将“质量术语”放在提示符的前面会使人工智能首先关注质量,因为顺序很重要。成为你的提示的粉丝。当你输入提示时,请表现出你很兴奋的样子。使用你在现实生活中使用的自然语言或自命不凡的废话。两者都有效。取决于你要查找的图像类型。真正尝试描述你的心灵之眼,不要遗漏情绪词。
PS:在我的实验中,大小写并不重要。括号和方括号并不重要。感叹号之所以起作用,只是因为人工智能认为你真的对这个特定的词感到兴奋。一般来说,像人类一样编写提示。人工智能接受了人类如何谈论艺术的训练。
归根结底,提示是一种技能。它需要练习、艺术的眼光和诗意的心。你应该谈论想法、隐喻、情感和能量。你的提示能力是别人无法窃取的。因此,如果你共享图像,请共享你的提示和设置。每个提示都是一支独特的笔。但这是一支可以通过超级创造力的人工智能和人类集体智慧无限重新组合的笔。我们越多地共同努力生成很酷的提示并看看什么效果最好,我们就会越好。这就是我写这篇文章的原因。我可以坐在地下室里像一个咯咯笑的妖精一样囤积我的知识,但我希望每个人都能做得更好。
无分类器指导 (CFG)
可能是稳定扩散中最酷的单一术语。CFG 衡量人工智能会听你的提示与做自己的事情的程度。实际上,它衡量的是你对提示的信心程度。这是 CFG 值的内部检查:
· CFG 2 - 6:让 AI 掌舵。
· CFG 7 - 11:让我们合作吧,AI!
· CFG 12 - 15:不,说真的,这是一个很好的提示。照我说的做吧,人工智能。
· CFG 16 - 20:按照我说的做,否则,人工智能。
所有这些都是有效的选择。这仅取决于你在流程中的位置。我建议大多数人主要坚持 CFG 7-11 范围,除非你真的觉得你的提示很棒并且人工智能忽略了其中的重要元素(尽管它可能只是不理解)。如果你能让我讲一下我的肥皂盒,我相信我们正在进入人工智能历史的一个阶段,在这个阶段,人机合作将是我们获得最佳结果的地方,而不是单独的人工智能或人类。CFG 7-11 系列代表了这种合作。
你越觉得你的提示很糟糕,你就越想尝试 CFG 2-6。对人工智能向你展示的内容持开放态度。有时你可能会说“嗯,这实际上是一个有趣的想法”。相应地修改你的提示。在这个级别,人工智能甚至可以在最糟糕的提示下运行。归根结底,人工智能是一个极具创造力的实体,它吸收了互联网上的大部分人类艺术。它对艺术略知一二。所以相信它。
强大的提示可以在 CFG 15-20 中生存。但就像我上面说的,CFG 15-20 就是你对 AI 尖叫。有时人工智能会发脾气(很少有人喜欢被吼叫)并说“闭嘴,你的提示太糟糕了。我无法处理这个!” 过去的 CFG 15。如果你在 CFG 15 上的结果看起来很糟糕,但你仍然认为自己有一个很好的提示,你可能想尝试 CFG 12。CFG 12 是同一想法的更柔和、更具协作性的版本。
关于CFG还有一件事。CFG 将改变人工智能对你的提示的反应程度。似乎很明显,但有时如果你在 CFG 7 中对复杂的提示进行更改,你会在 CFG 12-15 中看到更显着的更改。如果你喜欢所看到的,那么这不是不入住 CFG 7 的理由,只是需要记住一些事情。
抽样方法/抽样步骤/批次计数
这些是紧密相连的,所以我把它们捆绑在一起。采样步骤和采样方法属于技术性内容,因此我不会深入探讨它们实际上在幕后做什么。我将主要关注它们如何影响你们几代人。这些也经常被误解,我们对这个领域“最好”的理解也在不断变化。因此,请对这一节持保留态度。我只会给你一些好的实践来帮助你开始。我也不打算谈论每个采样器。就我所熟悉的那些。
k_lms:老可靠
如果你的提示很好的话,k_lms 在 50 步的情况下大多数时候都会给你带来很好的生成。k_lms 运行得非常快,因此结果也会以很快的速度出现。你可以轻松地在 CFG 7-8 中永远坚持此设置,就可以了。如果事情看起来有点糟糕,你可以尝试更高的步长值,例如 80。但是,根据经验,请确保较高的步长值实际上会给你带来好处,而不仅仅是浪费你的时间。时间。你可以通过保持种子和其他设置稳定并上下改变步数来检查这一点。你可能会对低步数的作用感到震惊。我对那些说他们每一代人都是 150 步的人非常怀疑。
DDIM:速度恶魔
DDIM 的 8 个步骤(是的,你没有看错。8 个步骤)可以让你以极快的速度获得出色的结果。这是快速生成大量图像的绝佳设置。当我测试新的提示创意时,我会将 DDIM 设置为 8 个步骤并生成一批 4-9 个图像。这给你一个梦幻般的鸟瞰你的提示在多个种子上的表现。这是快速提示修改的绝佳设置。你可以在 DDIM:8 的提示中添加一个单词,并在不到 5 秒的时间内查看它如何影响种子的输出(取决于显卡)。对于更复杂的提示,DDIM 可能需要更多帮助。如果你的输出仍然看起来乱码(或者是提示问题?),请随意增加到 15、25 甚至 35。你最终会发现增加步数何时会有所帮助。不过,与上述规则相同。不要浪费自己的时间。每隔一段时间确保你需要所有这些步骤。
k_euler_a:变色龙
适用于 DDIM 的所有内容也适用于此。该采样器速度快如闪电,并且能够以极低的步数(步骤 8-16)获得出色的结果。但它也极大地改变了一代人的风格。你的步数为 15 的一代可能看起来与步数 16 非常不同。然后它们可能看起来都与步数 30 非常不同。然后可能与步数 65 非常不同。这个采样器很狂野。一般来说,这里还值得注意:根据你使用的采样器,你的结果看起来会完全不同。所以不要害怕尝试。如果你在 k_euler_a 中得到了你非常喜欢的结果,请将其弹出到 DDIM 中(反之亦然)。
k_dpm_2_a:饥饿的艺术家
在我看来,这个采样器可能是最好的,但它有严重的权衡。与我上面提到的相比,它非常慢。然而,就我而言,k_dpm_2_a 在 30-80 步长范围内非常非常好。对于实验来说,这是一个糟糕的采样器,但如果你已经有一个你喜欢的提示,那就让它撕裂吧。只要做好等待的准备就可以了。等待。不过,如果你仍处于在提示中添加和删除术语的阶段,则应坚持使用 k_euler_a 或 DDIM 以较低的步数。
我目前正在研究一种理论,即某些采样器更擅长某些类型的艺术品。有些人更擅长肖像、风景等。我还没有任何具体的想法可以分享,但如果你觉得自己有一个很好的提示,但你的结果可能值得根据我上面列出的内容稍微调整一下你的采样器看起来异常糟糕。
关于大步长的注释:许多可以通过更高步数解决的问题也可以通过更好的提示来解决。如果你的拍摄对象的眼睛非常糟糕,请尝试在提示中添加一些内容,谈论他们的“对称的高度详细的眼睛、奇妙的眼睛、复杂的眼睛”等。但这并不是灵丹妙药。眼睛、脸和手是很难提示的、不平凡的东西。不要灰心。不断尝试,也不要害怕从提示中删除内容。没有什么是神圣的。你可能会对自己可以省略的内容感到震惊。例如,我看到很多人在令人惊叹的肖像提示中添加“有吸引力”……但人工智能绘制的图像中的大多数人已经吸引人的。根据我的经验,大多数时候“有吸引力”根本不需要。(无论如何,吸引力是非常主观的。尝试“独特的鼻子”或其他东西。这通常会做出很酷的面孔。制作很酷的模型。)
关于大批量大小的注释:有些人喜欢生成 500 代,然后选择最好的 4 代。我认为在这种情况下,你最好更多地修改提示。我见过的最可靠的提示在 10 代内就取得了非常好的结果。
种子
我们是否把最好的留到了最后?可以说。如果你正在寻找一个独特的好形象与你的朋友分享或在 Reddit 上收获因果报应,那么寻找一个好的种子是非常重要的。好的种子可以在各种提示、采样器和 CFG 中强制执行诸如构图和颜色之类的内容。使用 DDIM:8-16 根据提示寻找种子。然而,如果你主要寻找一个有趣的提示来获得持续良好的结果,那么种子就不那么重要了。在这种情况下,你希望提示能够跨种子自适应,并且将其过度拟合到一颗种子有时会导致它在其他种子上看起来更糟。权衡。
实际的种子整数并不重要。它或多或少只是初始化一个定义扩散起点的随机数生成器。也许有一天我们会拥有很酷的种子画廊,但那一天不是今天。
种子是对提示进行 A/B 测试的绝佳工具。锁定你的种子(选择一个随机数,选择你已经喜欢的种子,等等)并在提示中添加细节或艺术家。运行。输出如何变化?重复。这对于添加和删除艺术家来说非常酷。作为读者的练习,请尝试在同一种子上运行“HR Giger 的 Oasis”,然后运行“beeple 的 Oasis” 。看到它如何变化很大但有些元素仍然相似吗?凉爽的。现在试试“HR Giger 和 beeple 的 Oasis”。它结合了两者,但成分仍然相当稳定。这就是种子的力量。
或者说你有一个很好的提示,可以输出“黑发”女性的肖像照片。你运行几次并找到你喜欢的一代。抓住特定一代的种子以保持稳定,并将提示改为“金发”女人。该女子将保持相同或非常相似的姿势,但现在有一头金发。你可能会看到这是多么强大和简单。注意:较高的 CFG (12-15) 有时可以帮助此类测试,以便 AI 真正聆听你的提示更改。