当前位置:首页|资讯|AIGC

AIGC: Denoising Diffusion GANs 笔记

作者:刹那-Ksana-发布时间:2023-06-30


Denoising Diffusion GANs (紫色) 与其他模型的对比;FID 越低通常代表生成效果越好

去噪扩散模型虽然可以生成很好的图像,但问题是生成图片的时间太长。而原因就在于加噪和去噪都需要符合高斯分布。如果去噪要符合高斯分布,意味着

  1. %5Cbeta_t (可以简单理解为控制加噪强度的参数) 足够小,或者

  2. q(%5Ctextbf%7Bx%7D_t) 是一个高斯分布

上面是数据分布,下面是去噪分布;随着 t 的增加,数据将逐渐呈现一个高斯分布

从图中可以看出,步长越大,例如从 x5 到 x0,那么去噪分布将越不满足高斯分布,反而呈现一个多峰值的概率分布。

但是,反之,如果我们可以去学习这么一个多峰值的分布的话,我们就可以省去很多中间步骤,大大加速去噪扩散模型的生成时间。

%5Cbeta_t, 减少了总步数 (T%5Cleq8), 然后用一个 Generator 去模拟这个真实的去噪分布 q(x_%7Bt-1%7D%7Cx_t)

但是为什么不直接一步到位呢(one-shot, 即等同于 GAN 的训练),论文认为一步到位将会增加训练难度以及增加 mode collapse 的风险;而分步降噪的去噪分布更容易学习,也降低了 Discriminator 过拟合的可能性。

模型流程示意图

Parametrization

x_%7Bt-1%7D, 而是预测了 x_0'. 这是因为论文中使用了 Parametrization: 

p_%7B%5Ctheta%7D(x_%7Bt-1%7D%20%7C%20x_t)%20%3A%3Dq(x_%7Bt-1%7D%7Cx_0%2C%20x_t)%5C%5C%0Ax_0%3Df_%7B%5Ctheta%7D(x_t%2Ct)

x_0 和 x_t 以及一个后验概率分布 q(x_%7Bt-1%7D%7Cx_t%2Cx_0) 来生成 x'_%7Bt-1%7D, 而这个后验概率分布无论步长和数据分布,都满足高斯分布(太神奇了!):

q(x_%7Bt-1%7D%7Cx_t%2Cx_0)%3D%5Cmathcal%7BN%7D(x_%7Bt-1%7D%3B%5Ctilde%7B%5Cmu%7D(x_t%2Cx_0)%2C%5Ctilde%7B%5Cbeta%7D_t%20%5Cbf%7BI%7D)

以上的好处在于

  1. 整体架构更接近去噪扩散模型,可以借用DDPM的一些思想(如模型架构)

  2. x_%7Bt-1%7D, 预测一个未加噪的x_0 更加容易

更多细节和效果图见原文,数学公式太长太复杂了没有一个看得懂的 ㄟ( ▔, ▔ )ㄏ

Tackling the Generative Learning Trilemma with Denoising Diffusion GANs

Zhisheng Xiao, Karsten Kreis, Arash Vahdat

arXiv:2112.07804v2


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1