当前位置:首页|资讯|AIGC

AIGC名词解释:Latent Space 潜空间 I

作者:新设技发布时间:2023-10-13

原标题:AIGC名词解释:Latent Space 潜空间 I

用设计师能理解的语言

来解释AIGC中的技术名词

AIGC 属于跨学科的产物,涉及领域众多,包括高等数学、统计学、计算机图形图像学、机器学习等各个领域。AIGC 设计软件的界面上往往会涉及到许多这些领域的技术术语。要想搞清楚它们背后的知识体系需要展开的知识树体量十分庞大繁杂。术业有专攻,我们无法全面俱到地在每一个领域都做到精通,但又需要了解到一定的程度,以便更好地使用 AIGC 的相关软件。所以,我们将尽量以设计行业从业者能理解的语言来解释那些经常遇到无法绕开的技术术语。

Latent Space 潜空间

Latent ,这个词的语义是“隐藏”的意思。“Latent Space 潜在空间”也可以理解为“隐藏的空间”。Latent Space 这一概念是十分重要的,它在“深度学习”领域中处于核心地位,即它是用来学习数据的潜在特征,以及学习如何简化这些数据特征的表达,以便发现某种规律模式,最终来识别、归类、处理这些数据。所以我们放在所有的名词解释的第一个来进行讲解。

如图1所示,想象许多张卡片,每张卡片上以手写的方式书写着从0至9中的一个数字,这些卡片构成了一个数据集。相同数字的卡片容易被辨认出来(比如含有手写数字3的卡片),与其他数字的卡片看起来是有区别的(比如含有手写数字3的卡片和数字7的卡片之间的区别)。思考一个问题,我们能否训练一种算法来让计算机把同一种手写数字的卡片归类到一起,怎样做到?

图1:image Source: hackernoon.com

如果您最终训练出了这个算法,那么首先意味着你训练出来了一个模型能够识别卡片上不同手写数字之间特征的相似性,以便进行归类。

通常,我们把一组数据进行压缩,以便进行深度学习。压缩既为了节约算力资源,但更重要的是为了对数据进行高度概括以便找出某种规律特征。如图2所示,我们把一个19位的数据集,压缩成9位的数据集,用形象化的图像方式表示。其中空白的四个点位被去除。临近相同的点位被合并,并标注出总共有几个临近相同的点位被合并。这样19个点位就压缩成了9个点位。

图2:Source: Faust 2013

当然,这只是一个简易的举例,很明显仅一张512*512像素RGB图片中的数据集(512*512*3)都要远比这19个点位的数据量大很多。但无论多少最终都会以上文中提到的逻辑来压缩。就好比我们用500字来高度概括一篇万字的文章,写出文章的核心意思以及概要一样。

如图3所示,红绿蓝色(代表一张RGB真彩图像)的数据集代表大自然中可以直接观测到的一张图片数据,在本例中可以理解为一张手写数字卡片的所有像素点阵数据集。通过编码器(浅灰色方块代表)进行压缩,最终高度概括为中间的潜空间数据集(深灰色方块代表)。这一数据集所在的数据维度,用形象的词汇描述为 Latent Space 潜在空间 或 潜空间。顺便说一下,这个浅灰色的编码器和之后用于解压的解码器在深度学习领域就是变分自动编码器( Variational AutoEncoder,简称VAE ,之后会介绍)。

图3:Source: Faust 2013

实际上ANN神经网络(Artificial Neural Network人工神经网络,之后会介绍)就是在这个潜空间中进行运算的(注意:而不是在直接从大自然中采集来的数据集,即像素空间中进行计算)。

你可能会意识到一个问题,如果按照某种规则压缩数据集,比如之前提到的19位数据压缩成9位,其间的空白数据会被丢掉,但是我们并没有记录这些空白数据所在的位置,也没有记录那些重复的数据各自所在的位置,日后解压时,该如何100%复现压缩前的原始状态呢?

需要明确的是,我们在人工智能领域所提到的潜空间的数据压缩,指的是有损的压缩,不可能直接通过这样的压缩编码器在逆向解压时重复使用为解码器以期达到100%复原原始数据集。虽然理论上如果编码器和解码器足够强大的话,是可以做到无损压缩的(确切地说是无损编码),但在人工智能领域,这是完全没有必要的,当然也必然地不需要。其实,人工智能在这里进行的不是解压,而是一种通过不断地训练学习,学会根据潜空间中被压缩的数据来尽量复原再现被压缩前的原始状态,只能说是尽量逼近而不是100%复原。也就是说,让机器通过500字的中心思想和梗概去扩写出一篇1万字的文章出来,和原文章肯定不是字字句句都相同的,但看过的人一对比发现和原文章竟然大体上雷同。这个过程便是人工智能的训练学习的过程。我们经常说的大模型训练就是这个意思,学习训练出来的规律总和,就叫“模型”,虽然这个模型中具体的规律是什么我们并不能清楚,无法解释为若干具体的公式。

按照之前讲到的神经网络中所提及的内容,我们无法知道大脑中数以亿计的神经元之间是用怎样的计算公式导致了大脑能记住一只猫,但通过训练我们可以让一个幼儿记住眼前的这个小动物就是一只猫,这就是训练的方式,对期望达到的结果进行训练。再比如,针对本例中手写数字卡片的识别训练规律,就是一种十分有针对性的图形分辨模型。用500字的中心思想和梗概扩写出1万字文章逼近于原文章的规律,就是另一个很有针对性的语言领域的模型,我们熟知的ChatGPT便是这样的大模型。图4中就展示出来了,这个辨认手写数字卡片的大模型通过学习训练所达到的各个阶段的表现,可以看到它逐步逼近原始数据状态的过程。

图4:image Source: hackernoon.com

编码与解码配对互相校正的过程就是人工智能学习的过程,这需要大量的训练样本来学习,帮助纠正编码器与解码器的认知偏差。如果放弃训练过程,把编码器中的规律直接告诉AI,让它逆向执行,那就等于失去创造与探知未知领域的能力,失去了解决新问题的能力,也就失去了人工智能的意义而变成了鹦鹉学舌的机器。如同人类不教育孩子自主寻求解决问题的方法,而只是让孩子死记硬背前人总结的道理一样。浩如烟海的知识不可能全部背下来,且未来还会产生新的领域和问题,如何去面对新问题找到合适的办法呢?很明显对于只知道死记硬背的孩子来说是没有施展空间的,而对于开启了主动寻找解决思路的孩子来说会更适合创新领域。当然,我们并没有否定知识被存储记忆下来的意义,我们否定的是过度偏重死记硬背而忽略了启发创新思维。

AIGC基础知识

专业名词解析

Stable Diffusion从入门到精通到实战

专栏内容简介

从AIGC的基础概念介绍开始,以“喂饭级”的语言,逐一详细介绍 Stable Diffusion WebUI 的各个参数与设置,配合详细的图文素材,并用大量实战案例来解读 Stable Diffusion 在目前各设计领域中的应用。

通过这个专栏,你会得到

  1. AIGC的基础概念、扎实的基础知识;

  2. AIGC图像设计创作领域目前最重要的阵地——Stable Diffusion 的相关基础知识、专业术语;

  3. Stable Diffusion WebUI 软件中每一个参数详细功能介绍,原理,对应AI生图的结果;

  4. Stable Diffusion WebUI 的具体使用方法和技巧,各种模型介绍、周边配套插件与软件的使用方法和技巧;

  5. Stable Diffusion WebUI 在实际设计产业中的应用、实战解析;

  6. Stable Diffusion 的提示词库、参数库等;

  7. 购买全套课程的学员,享受半年免费 SD-WebUI(高性能GPU)线上使用权限,使用期限内无限出图、高速出图。

订阅须知

  1. 《Stable Diffusion从入门到精通到实战》为图文/视频专栏,不少于 20 期,每周五 21:00 点更新;

  2. 20 期更新结束后,专栏内容会根据 AIGC 领域的最新动态、Stable Diffusion 的不断迭代而产生新内容,这些与时俱进的新内容无需额外付费;

  3. 添加一对一辅导员,及时收到通知更新内容,一对一解答疑难问题;

  4. 本专栏为虚拟内容服务,购买成功后不支持退款,请理解。

加辅导员微信咨询

了解更详细课程信息

一对一解答疑难问题

Stable Diffusion WebUI

从入门到精通再到实战

完全喂饭级,细致到每一个参数

“设计小白”都能看懂

有设计基础的朋友更会得到启发

抓住人工智能工业革命带来的新机遇

辅导员微信:cyxq2019

↑ 长按上方二维码图 ↑

在弹出菜单中选择“打开对方的名片”

加辅导员微信,咨询课程


Copyright © 2025 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1