当前位置:首页|资讯|AIGC

AIGC名词解释:Latent Space 潜空间 II

作者:新设技发布时间:2023-10-20

原标题:AIGC名词解释:Latent Space 潜空间 II

用设计师能理解的语言

来解释AIGC中的技术名词

AIGC 属于跨学科的产物,涉及领域众多,包括高等数学、统计学、计算机图形图像学、机器学习等各个领域。AIGC 设计软件的界面上往往会涉及到许多这些领域的技术术语。要想搞清楚它们背后的知识体系需要展开的知识树体量十分庞大繁杂。术业有专攻,我们无法全面俱到地在每一个领域都做到精通,但又需要了解到一定的程度,以便更好地使用 AIGC 的相关软件。所以,我们将尽量以设计行业从业者能理解的语言来解释那些经常遇到无法绕开的技术术语。

Latent Space 潜空间(下)

Latent Space 潜在空间之所以叫“空间”,而不是叫“压缩数据”或“高度概括数据”,还因为一个比较重要的概念“维度”。一个手写数字卡片这样的图像,可以算是2维的数据集,而一段视频,我们可以理解为3维的数据集,但是要通过数据来描述这个世界中的很多事物,不可能止步于3维。在一个虚拟的世界中,模拟再现出一个世界,需要用数字描绘的事物维度往往超过了3维,甚至高达十几维、几十维、几百维。这样的维度空间我们无法用感官去直接感受到或大脑想象到,但可以通过数据集来描述。人工智能直接在这样高维度的数据集中进行训练,将因为数据过于庞大,且其中的“杂质”太多而难以进行。

比如图5中的两把椅子和桌子,很明显,两把椅子更有相似性,他们区别于桌子大概率是因为他们都是有靠背的、没有抽屉的、更瘦高的外观结构等等。这些都构成了数据的维度。可是很明显,两把椅子的颜色特征,在建立椅子与椅子之间的相似度和椅子与桌子的区别度来看,纯属是无用的甚至是容易造成混淆的“杂质”信息。所以,我们需要过滤一下。通常的方式是把高维度的事物用低维度去解构。好比一个3D的图形,我们把它解构为2D的正视图、2D的侧视图和2D的顶视图,最后再把这三个2D的图像进行分别运算一样。通过维度的降低,在训练样本足够多的情况下,许多不相关的“杂质”数据将被识别后剔除掉,因为更接近于普遍规律性的数据将在数据表现上更接近。最后留在低维度空间(潜空间)中的信息将最大限度地高度概括这类事物的普遍特征。

图5:image source:towardsdatascience.com

这便有了“空间”的概念,把高纬度空间中的事物降维成低维度的空间中的数据,再在低维度空间中进行运算。这里“空间”两个字是一种意向上的比喻称呼,比喻一种隐藏的、被压缩后的、不可直观感受到的、从高维度解构下来的低维度空间。这两把椅子在潜空间中距离更近,你也可以理解为两把椅子的数据集在潜空间中所占的坐标点位更相近。比如两把椅子在潜空间中数据被压缩成[0.4, 0.5] 和 [0.45, 0.45],而桌子被压缩成[0.9, 1.05],若放在二维的坐标系中,两个数值分别代表X坐标值和Y坐标值,很明显两把椅子的点位更接近,“椅子”的规律也就浮现出来了。

这其实很类似哲学意义上的归纳总结,在一系列类似的事物中,把没用的、偶然的信息剔除掉,把有用的相互之间关联的规律性的信息高度地形而上地总结起来,形成认知事物的规律(在人工智能领域就是形成了“模型”),方便日后面对类似事物问题时进行分析判断,遵循这样的规律去行事以期达到我们心中想要的结果。潜空间就是这个拆分复杂问题后,剔除了无用的“杂质”信息后,留下来的“哲学空间”,但空间中的哲理描述则是简明扼要的提纲挈领的。这个空间中的数据就被泛指为潜空间中的变量,简称为“潜变量”。

另外,关于潜空间、维度、编码后的数据损失、规律性、解码、训练等概念可以通过图6进行更形象地理解。图6中,在 initial dimension 1 为横轴、 initial dimension 2 为纵轴组成的二维坐标系中,A、B、C、D四个点代表原始数据,他们在二维空间中占有各自的位置(图6中+号的点位,他们的初始坐标为右侧表格中 Initial 列下的二维数据集)。编码器将这四个点位首先从二维空间压缩到一维空间对应的点,这个一维空间的坐标系就是图6中 encoded dimension 1 坐标轴所代表的。它的原点和二维坐标系的原点是重合的。当这一降维编码完毕后,自然而然地,ABCD四个点位的初始数据就被压缩到了潜空间之中,即一维空间中。在一维空间中,ABCD四个点的数据集只包含一个数字,这个数字描绘了各个点与原点(坐标轴0点)之间的对应位置信息。而在一维空间中的点位再映射回到二维空间时,也就是再解码回来时,我们就发现了误差,即压缩损失传递过来的解码误差(图6中B点作为例子,编码前后以及解码后的数据都标注出来了)。可以看出,当数据被编码压缩或者说降维到潜空间之中时,虽然是有损失的,但是规律性也自然浮现了出来。因为一维空间 dimension 1 的坐标轴本身也代表了ABCD在二维空间中分布的潜在规律。目前我们只是用ABCD四个点来简化说明,当这样的数据足够多时,这个规律性将更能说明普遍问题,更精细地指向趋势。这也就是用更多的数据样本来进行训练的意义。在这个例子中,训练内容就是让dimension 1 坐标轴的斜率发生微调,调整到最优的状态,以使得编码和解码后的点和初始点之间的误差能尽量小,即图6中虚线的长度尽量短(即最佳线性逼近)。

图6:image source:towardsdatascience.com

当然,这并不意味着ABCD四个点就一定是现实物理世界中的二维平面上的四个点,而是说,ABCD这四个初始点采样自现实世界中,每个点可以用一个二维向量来表示,即两个数值代表的数据集。我们只是在数学模型构建这些点时,可以把他们视在二维坐标系中的点而已。实际上在大自然中要模拟一些复杂自然规律,其采样的点的数据维度可能会极高,三维、四维、五维...以至于几百维都有,即用来描述每一个采样点的数据集中的数字为3个、4个、5个以至于几百个,我们仍然有办法可以将他们从高维逐层级地降成一维。

如图7,三维降维到二维的例子中,此时求一个最佳斜率的问题就变成了求一个最佳平面的问题了。而平面求出来后,就又可以按照之前的方法求最佳一维坐标轴的斜率问题了。只不过此时产生了两个一维坐标轴。更高维度降维的过程依此类推。在实际运行过程中,我们没有必要把所有维度都降维到一维,降到几维最合理,实际上要根据具体的问题来做调整的。

图7:image source:towardsdatascience.com

当然,理论上来说,如果所有初始数据我们都放弃用直线来拟合,而是尽量找到某一种曲线的公式去拟合,如果计算足够强大的话,是可以做到极少地压缩损失的。换言之,就是过拟合。但我们应该记住两件事。首先,没有压缩损失的降维往往伴随着很大的代价,即潜空间中的数据缺乏可解释和可总结的结构,即缺乏规律性。其次,降维的最终目的不仅是为了减少数据运算量,更多地是因为通过减少维数,把主要的重要的结构化的信息,从杂质信息中提炼并保留下来,但又不能做得太过分,以至于一些重要信息都被过滤掉了。基于这两个原因,潜在空间的尺寸和自动编码器的“深度”(即压缩程度和质量)必须根据降维的最终目的而进行调整。

图8很好地解释了这个维度深浅的意义:

图8:image source:towardsdatascience.com

图8用dog、bird、car、plane,四个概念来举例,好比每一个概念都是N维的数据集。那么压缩到二维就足够了,可以对四个概念进行有效的规律总结和分类操作。但是再多压缩一层,到一维时,我们就难以对数据规律进行总结了,即四个概念都混为一谈了,也就是压缩失去了太多关键信息。所以,“过拟合”和“拟合不到位”都不是好事情,恰如其分地拟合才是我们在训练模型中所追求的。

AIGC基础知识

专业名词解析

Stable Diffusion从入门到精通到实战

专栏内容简介

从AIGC的基础概念介绍开始,以“喂饭级”的语言,逐一详细介绍 Stable Diffusion WebUI 的各个参数与设置,配合详细的图文素材,并用大量实战案例来解读 Stable Diffusion 在目前各设计领域中的应用。

通过这个专栏,你会得到

  1. AIGC的基础概念、扎实的基础知识;

  2. AIGC图像设计创作领域目前最重要的阵地——Stable Diffusion 的相关基础知识、专业术语;

  3. Stable Diffusion WebUI 软件中每一个参数详细功能介绍,原理,对应AI生图的结果;

  4. Stable Diffusion WebUI 的具体使用方法和技巧,各种模型介绍、周边配套插件与软件的使用方法和技巧;

  5. Stable Diffusion WebUI 在实际设计产业中的应用、实战解析;

  6. Stable Diffusion 的提示词库、参数库等;

  7. 购买全套课程的学员,享受半年免费 SD-WebUI(高性能GPU)线上使用权限,使用期限内无限出图、高速出图。

订阅须知

  1. 《Stable Diffusion从入门到精通到实战》为图文/视频专栏,不少于 20 期,每周五 21:00 点更新;

  2. 20 期更新结束后,专栏内容会根据 AIGC 领域的最新动态、Stable Diffusion 的不断迭代而产生新内容,这些与时俱进的新内容无需额外付费;

  3. 添加一对一辅导员,及时收到通知更新内容,一对一解答疑难问题;

  4. 本专栏为虚拟内容服务,购买成功后不支持退款,请理解。

加辅导员微信咨询

了解更详细课程信息

一对一解答疑难问题

Stable Diffusion WebUI

从入门到精通再到实战

完全喂饭级,细致到每一个参数

“设计小白”都能看懂

有设计基础的朋友更会得到启发

抓住人工智能工业革命带来的新机遇

辅导员微信:cyxq2019

↑ 长按上方二维码图 ↑

在弹出菜单中选择“打开对方的名片”

加辅导员微信,咨询课程


Copyright © 2025 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1