用设计师能理解的语言
来解释AIGC中的技术名词
“AIGC 属于跨学科的产物,涉及领域众多,包括高等数学、统计学、计算机图形图像学、机器学习等各个领域。AIGC 设计软件的界面上往往会涉及到许多这些领域的技术术语。要想搞清楚它们背后的知识体系需要展开的知识树体量十分庞大繁杂。术业有专攻,我们无法全面俱到地在每一个领域都做到精通,但又需要了解到一定的程度,以便更好地使用 AIGC 的相关软件。所以,我们将尽量以设计行业从业者能理解的语言来解释那些经常遇到无法绕开的技术术语。
Diffusion 扩散模型
在讲解 Diffusion 扩散模型之前,让我们先回顾一下 GAN 生成对抗网,这将有助于我们更好地理解 Diffusion 扩散模型。在 GAN 的介绍中我们讲过,它的主要架构思想是:通过生成器(Generato)与判别器(Discriminator)不断对抗进行模型训练。
这就好比赝品画师 G 在和名画鉴别师 D 之间进行的一场永无止境的道高一尺魔高一丈的竞赛。G 不断地提高自己的模仿能力,D 则不断地提高自己的鉴别能力。以至于经过 D 专门“对抗训练”出来的 G 的画作在市场上得到了广泛的认可。除了 G 和 D 自己以外,这世界上再无其他人能认得出 G 的画作是假画了,大家都以为 G 拿出来的画是某某大师亲手所做。
GANs 网络中生成器(G)于判别器(D)的关系
在赝品画师 G 看来,自己已经具备了大师级的细致入微的笔触模仿能力,既然自己有如此高超的模仿能力,应该改邪归正,出品属于自己画风的画作。可是此时他遇上了一个新问题,GAN 生成对抗网络的算法有一个严重问题,由于程序互相对抗的标准是给定的样本,因此生成的内容实质上只是对现有内容无限地逼近模仿,而模仿则意味着无法实现真正的艺术突破,即我们通常所说的“艺术创作”!
于是,Diffusion 扩散模型诞生了。从2022年初引起广泛关注的 Disco Diffusion,再到 DALL-E 等都是基于 Diffusion 模型开发出来 AIGC 图像创作程序,而拿到 1.1 亿美元巨额融资的 Stable Diffusion 是最受欢迎的(实际上 Latent Diffusion 是 Diffusion 的改进版, 而 Stable Diffusion 则是 Latent Diffusion 的改进版)。
Diffusion 扩散模型是在 2015年时的 Deep Unsupervised Learning using Nonequilibrium Thermodynamics (论文:https://arxiv.org/abs/1503.03585)文章中提出的。但当时,这个扩散模型并没有立刻得到广泛的关注。目前所采用的扩散模型大都是 2020年6月时,来自于加州大学伯克利分校的一篇题为 DDPM 去噪扩散概率模型的论文( DDPM:Denoising Diffusion Probabilistic Models 去噪扩散概率模型的英文简写,论文:https://arxiv.org/abs/2006.11239)。DDPM在更加庞大的数据集上展现出了与当时最优秀的生成对抗网络 GAN 模型相媲美的性能,这才让世人真正地领略到了 Diffusion 扩散模型在 AIGC 内容创作领域所蕴藏的巨大潜力。于是Diffusion 扩散模型开始火爆了起来!
受非平衡热力学(Non-equilibrium thermodynamics)的启发,Diffusion 的意思就是如滴入一杯清水中的墨滴一样,慢慢散开最终变成一片浑浊。如果这个过程可逆,那么就可以创造一个由一片浑浊去探寻最初墨滴状态的方法。于是 Diffusion Models 模型诞生了,它分为两个部分:
Diffusion 模型分为两个部分:前向过程、反向过程
前向过程(Forward Diffusion Process)在图片中添加噪声,犹如墨滴逐渐扩散开来。这个过程用于训练阶段;
反向过程(Reverse Diffusion Process)去除图片中的噪声,犹如一片浑浊的水逐渐逆转,时间倒流回到一滴墨汁的状态。这个过冲用于生成阶段。
Diffusion 扩散模型在前向过程时,对图像逐步施加噪点,直至图像变成完全的高斯噪声图。然后在反向过程中,从高斯噪声逐渐还原为某一张图像(记住,这里是说某一张图片,而不是之前那一张图片,稍后我们再详细解释)。先看一下在这一正一反的两个过程中,AI算法都干了些什么。具体过程如下:
前向过程和反向过程最关键的地方就是训练 U-Net 网络,即训练模型。当模型训练完成后, 只要给定一张全噪点图,就可以生成一张从未见过的新图像。神奇吧~!
其实,这也是很多人纳闷的地方,把一张图加上噪点,再去掉噪点变回一张图,这不是脱了裤子放屁,多此一举吗。其实,新生成的墨滴早已不再是原来那个墨滴了,虽然他们长得都很像,这就是 Diffusion 扩散模型的魅力所在。因为时间根本无法逆转,反扩散过程即生成图像的过程只是因为在正向扩撒过程中AI学会了一个技能,从而能用这个技能进行图像的创作。这个技能就是,AI知道了从一张具体的有内涵的图像怎样逐渐地变成完全噪点图的每一步中都发生了什么。将一个有内涵有灵魂的内容一步一步地让它变成一片虚无,或者说让一个生命一步一步地走向死亡,最终尘归尘土归土,回归到最初的状态,AI从中窥探到了生与死之间并无本质的分别,只是形式进行了转换,在生命中不断地增加了一些东西而已,一旦这些东西增加到饱和状态,物质就从生命模式转换到了虚无模式。于是,它立即明白过来,将这个过程反过来也可以从一片虚无中创造出新的生命。虽然这个新的生命还有原来那个墨滴的影子,但早已不是原来那个墨滴。好了,如此写意地解释 Diffusion 扩散模型可能显得不够严谨。在接下来的章节中,我们将严谨地详细讲解 Diffusion 的具体过程,让我们继续。
常见的几种生成模型有 GAN,Flow-based Model,VAE,Energy-Based Model 以及 Diffusion。Diffusion扩散模型和其它生成模型的区别是,它不是直接地从图像到潜变量、再从潜变量到图像的一步到位,它是一步一步地逐渐分解、逐渐去噪的过程。
Diffusion 模型与其他生成模型之间的架构区别
这也导致了 Diffusion 的缺点是在反向扩散过程中需要把完整尺寸的图片输入到 U-Net 网络,这使得当图片尺寸以及随机时间步长 足够大时,Diffusion 运行得将会非常缓慢,系统算力耗费巨大。于是为了解决这一问题 Stable Diffusion 应运而生了~。所以,在下一章节中,主角 Stable Diffusion 将正式登场,我们将重点介绍这个目前在所有 AIGC 图像创作领域最顶尖的模型!同时,我们也将详细地了解到 Diffusion 扩散模型具体是如何扩散和反向生成图像的。
AIGC基础知识
专业名词解析
及
Stable Diffusion从入门到精通到实战
专栏内容简介
从AIGC的基础概念介绍开始,以“喂饭级”的语言,逐一详细介绍 Stable Diffusion WebUI 的各个参数与设置,配合详细的图文素材,并用大量实战案例来解读 Stable Diffusion 在目前各设计领域中的应用。
通过这个专栏,你会得到
AIGC的基础概念、扎实的基础知识;
AIGC图像设计创作领域目前最重要的阵地——Stable Diffusion 的相关基础知识、专业术语;
Stable Diffusion WebUI 软件中每一个参数详细功能介绍,原理,对应AI生图的结果;
Stable Diffusion WebUI 的具体使用方法和技巧,各种模型介绍、周边配套插件与软件的使用方法和技巧;
Stable Diffusion WebUI 在实际设计产业中的应用、实战解析;
Stable Diffusion 的提示词库、参数库等;
购买全套课程的学员,享受半年免费 SD-WebUI(高性能GPU)线上使用权限,使用期限内无限出图、高速出图。
订阅须知
《Stable Diffusion从入门到精通到实战》为图文/视频专栏,不少于 20 期,每周五 21:00 点更新;
20 期更新结束后,专栏内容会根据 AIGC 领域的最新动态、Stable Diffusion 的不断迭代而产生新内容,这些与时俱进的新内容无需额外付费;
添加一对一辅导员,及时收到通知更新内容,一对一解答疑难问题;
本专栏为虚拟内容服务,购买成功后不支持退款,请理解。
加辅导员微信咨询
了解更详细课程信息
一对一解答疑难问题
Stable Diffusion WebUI
从入门到精通再到实战
完全喂饭级,细致到每一个参数
“设计小白”都能看懂
有设计基础的朋友更会得到启发
抓住人工智能工业革命带来的新机遇
辅导员微信:cyxq2019
↑ 长按上方二维码图 ↑
在弹出菜单中选择“打开对方的名片”
加辅导员微信,咨询课程
AbMole 2024-12-16
科盛光伏 2024-12-16