当前位置:首页|资讯|AIGC

AIGC名词解释:VAE 变分自编码器

作者:新设技发布时间:2023-10-20

原标题:AIGC名词解释:VAE 变分自编码器

用设计师能理解的语言

来解释AIGC中的技术名词

AIGC 属于跨学科的产物,涉及领域众多,包括高等数学、统计学、计算机图形图像学、机器学习等各个领域。AIGC 设计软件的界面上往往会涉及到许多这些领域的技术术语。要想搞清楚它们背后的知识体系需要展开的知识树体量十分庞大繁杂。术业有专攻,我们无法全面俱到地在每一个领域都做到精通,但又需要了解到一定的程度,以便更好地使用 AIGC 的相关软件。所以,我们将尽量以设计行业从业者能理解的语言来解释那些经常遇到无法绕开的技术术语。

VAE 变分自编码器

VAE 为 Variational AutoEncoder,变分自编码器的英文缩写,是一种基于深度学习的生成模型(论文:https://arxiv.org/abs/1312.6114 、 https://arxiv.org/abs/1606.05908 ),它是一种神经网络,同属于生成模型的还有著名的GAN,之后我们会讲解。VAE 的核心是一个编码器网络和一个解码器网络,见图1:

图1:VAE 变分自编码器的架构

  • 编码器(Encoder):编码器用来学习将自然数据集压缩成潜空间中的点,这个点在坐标体系中的的坐标由潜在向量(latent vector)表示。潜在向量不是一个确定的点,而是一个分布(通常假设是正态分布)。

  • 解码器(Decoder):解码器用来从潜空间中的潜在向量中采样,然后学习将这个采样点进行识别,解码为数据集(通常为图像),这个数据集如果接近当初输入给编码器的图像,就被确定这个解码器合格了。

编码器和解码器可以看作是两个函数,一个用于将高维输入的数据(如图1)编码为潜空间中的低维数据,另一个用于将潜空间中的低维数据解码为输出(如生成的图片)。这两个函数在神经网络中一般用 CNN(卷积神经网络,之后会有介绍)来构建的。

VAE是为了解决 AE(Auto Encoder 自动编码器)的不足而产生的升级版本,为此我们需要先了解 AE。AE 如之前介绍潜空间时所说的,如果我们用于 AI 生图领域,它的 Encoder 是将图片编码为潜空间中的数值,Decoder 是将数值再解码成图片。这样在训练过程中,随着不断降低输入图片与输出图片之间的误差,AE 模型会过于拟合,缺乏泛化性能。也就是说,输入某个训练过的图片,就只会将其编码为某个确定的 code,反过来,输入某个确定的 code 就只会输出为某个确定的图片,如果这个 code 是来自未训练过的陌生图片,那么则无法生成出我们想要的那个陌生图片。

如图2,假设 AE 将“新月”图片 encode 为 1(这里假设编码只有 1 维的数值),将 1 decode 后得到“新月”的图片。将“满月” encode 成 10,同样将 10 decode 得到“满月”图片。这时,如果我们给 AE 一个 code 值为 5,我们希望是能得到一个介乎于新月和满月之间,类似“半月”的图片,但由于之前未训练过“半月” 图片(既非“新月”也非“满月”的图片)对应的编码为 5,那么 AE 解码后就无法得到“半月”的图片,而是模糊的乱码(之所以是乱码,是由于 AE 采用的卷积神经网络,运算过程是一个非线性的变换过程,所以点与点之间的迁移是非常没有规律的)。

图2:AE 仅训练1为“新月”、10为“满月”

当然,上面只是举一个极简单的例子方便大家理解 AE。AE 在实际运行中,编码器把原数据压缩进入了潜空间时是有压缩损失的,配对运行的解码器要通过运算解码尽量复现编码之前的数据状态,这就意味着,编码器和解码器需要配对出现进行无数次的训练,以求在解码时得到最小的重构误差。因此,AE 的工作重心是在数据的压缩和恢复上,如何做到尽可能的复现初始状态,而并不是在预测中间状态和趋势状态上,所以过拟合的问题在所难免。

于是,预测中间状态和趋势状态的工作则交给了VAE。为了解决AE过拟合与不泛化问题,VAE的思路是这样的。首先不将图片编码成潜空间中的数值,而是将其编码成一种潜空间中的“正态分布”数据集。如图3,我们将“新月”图片编码成 = 1 的正态分布,那么就相当于在 1 附近加了正态分布的噪声,此时不仅单一数值 1 表示“新月”,而是 1 和 1 附近的正态分布的数值(即浅在向量)统一表示为“新月”,只是 1 的时候最像“新月”而已。越接近 1 附近的偏离值则越接近“新月”图像状态,反之越不像。当然要完成这样的匹配需要一定量的新月以及接近新月的预训练数据。同样,将“满月”映射成 =10 的正态分布,满月和接近满月的图片的预训练数据也需要充分。虽然我们并没有训练过半月的图片数据,但当 code=5 时,就同时拥有了“新月”和“满月”的部分正态分布概率,此时 decode 出来的大概率就是一个介乎于“新月”和“满月”之间的图片“半月”了。当然,这里只是粗略地形象地比喻方法去解释VAE的思路,实际在执行过程中还需要许多其他的变量加入其中。

图3:VAE 训练“新月”为1的正态分布、“满月”为10的正态分布

VAE 比 AE 多出这个 V 就是 Variational ,就是变分、变量化的意思,同时也来源于统计学中的变分推理方法的意思 variational inference method 。

很明显,我们在生活中遇到的问题要比这个复杂很多,决定某件事情发展的变量也很多,大部分这样的问题都是以前没有跟在前辈或老师身边学习到的。如果非黑即白地面对,往往得不到理想的结果,此时需要一些“难得糊涂”地去理解事物,既要有原则,又要有相对可包容的分寸去把握,此时处理出来的结果,则会相对更好一些。

Stable Diffusion 中的 VAE 基于同样的原理,他们往往能够给图像生成模型提供很好的输出效果,尤其是在颜色饱和度方面作用显著。

AIGC基础知识

专业名词解析

Stable Diffusion从入门到精通到实战

专栏内容简介

从AIGC的基础概念介绍开始,以“喂饭级”的语言,逐一详细介绍 Stable Diffusion WebUI 的各个参数与设置,配合详细的图文素材,并用大量实战案例来解读 Stable Diffusion 在目前各设计领域中的应用。

通过这个专栏,你会得到

  1. AIGC的基础概念、扎实的基础知识;

  2. AIGC图像设计创作领域目前最重要的阵地——Stable Diffusion 的相关基础知识、专业术语;

  3. Stable Diffusion WebUI 软件中每一个参数详细功能介绍,原理,对应AI生图的结果;

  4. Stable Diffusion WebUI 的具体使用方法和技巧,各种模型介绍、周边配套插件与软件的使用方法和技巧;

  5. Stable Diffusion WebUI 在实际设计产业中的应用、实战解析;

  6. Stable Diffusion 的提示词库、参数库等;

  7. 购买全套课程的学员,享受半年免费 SD-WebUI(高性能GPU)线上使用权限,使用期限内无限出图、高速出图。

订阅须知

  1. 《Stable Diffusion从入门到精通到实战》为图文/视频专栏,不少于 20 期,每周五 21:00 点更新;

  2. 20 期更新结束后,专栏内容会根据 AIGC 领域的最新动态、Stable Diffusion 的不断迭代而产生新内容,这些与时俱进的新内容无需额外付费;

  3. 添加一对一辅导员,及时收到通知更新内容,一对一解答疑难问题;

  4. 本专栏为虚拟内容服务,购买成功后不支持退款,请理解。

加辅导员微信咨询

了解更详细课程信息

一对一解答疑难问题

Stable Diffusion WebUI

从入门到精通再到实战

完全喂饭级,细致到每一个参数

“设计小白”都能看懂

有设计基础的朋友更会得到启发

抓住人工智能工业革命带来的新机遇

辅导员微信:cyxq2019

↑ 长按上方二维码图 ↑

在弹出菜单中选择“打开对方的名片”

加辅导员微信,咨询课程


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1