去噪扩散模型虽然可以生成很好的图像,但问题是生成图片的时间太长。而原因就在于加噪和去噪都需要符合高斯分布。如果去噪要符合高斯分布,意味着
(可以简单理解为控制加噪强度的参数) 足够小,或者
是一个高斯分布
从图中可以看出,步长越大,例如从 x5 到 x0,那么去噪分布将越不满足高斯分布,反而呈现一个多峰值的概率分布。
但是,反之,如果我们可以去学习这么一个多峰值的分布的话,我们就可以省去很多中间步骤,大大加速去噪扩散模型的生成时间。
, 减少了总步数 (), 然后用一个 Generator 去模拟这个真实的去噪分布 。
但是为什么不直接一步到位呢(one-shot, 即等同于 GAN 的训练),论文认为一步到位将会增加训练难度以及增加 mode collapse 的风险;而分步降噪的去噪分布更容易学习,也降低了 Discriminator 过拟合的可能性。
, 而是预测了 . 这是因为论文中使用了 Parametrization:
和 以及一个后验概率分布 来生成 , 而这个后验概率分布无论步长和数据分布,都满足高斯分布(太神奇了!):
以上的好处在于
整体架构更接近去噪扩散模型,可以借用DDPM的一些思想(如模型架构)
, 预测一个未加噪的 更加容易
更多细节和效果图见原文,数学公式太长太复杂了没有一个看得懂的 ㄟ( ▔, ▔ )ㄏ
Tackling the Generative Learning Trilemma with Denoising Diffusion GANs
Zhisheng Xiao, Karsten Kreis, Arash Vahdat
arXiv:2112.07804v2