CVPR 2024｜生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

作者：机器之心Pro发布时间：2024-03-28

机器之心专栏

机器之心编辑部

扩散模型凭借其在图像生成方面的出色表现，开启了生成式模型的新纪元。诸如 Stable Diffusion，DALLE，Imagen，SORA 等大模型如雨后春笋般涌现，进一步丰富了生成式 AI 的应用前景。然而，当前的扩散模型在理论上并非完美，鲜有研究关注到采样时间端点处未定义的奇点问题。此外，奇点问题在应用中导致的平均灰度等影响生成图像质量的问题也一直未得到解决。

为了解决这一难题，微信视觉团队与中山大学合作，联手探究了扩散模型中的奇点问题，并提出了一个即插即用的方法，有效解决了初始时刻的采样问题。该方法成功解决了平均灰度问题，显著提升了现有扩散模型的生成能力。这一研究成果已在 CVPR 2024 会议上发表。

扩散模型在多模态内容生成任务中取得了显著的成功，包括图像、音频、文本和视频等生成。这些模型的成功建模大多依赖于一个假设，即扩散过程的逆过程也符合高斯特性。然而，这一假设并没有得到充分证明。特别是在端点处，即 t=0 或 t=1，会出现奇点问题，限制了现有方法对奇点处采样的研究。

此外，奇点问题也会影响扩散模型的生成能力，导致模型出现平均灰度问题，即难以生成亮度强或者弱的图像，如图下所示。这在一定程度上也限制了当前扩散模型的应用范围。

为了解决扩散模型在时间端点处的奇点问题，微信视觉团队与中山大学合作，从理论和实践两个方面展开了深入探究。首先，该团队提出了一个包含奇点时刻逆过程近似高斯分布的误差上界，为后续研究提供了理论基础。基于这一理论保障，团队对奇点处的采样进行了研究，并得出了两个重要的结论：1）t=1 处的奇点可以通过求取极限转化为可去奇点，2）t=0 处的奇点是扩散模型的固有特性，不需要规避。基于这些结论，该团队提出了一个即插即用的方法：SingDiffusion，用于解决扩散模型在初始时刻采样的问题。

通过大量的实验验证表明，仅需训练一次，SingDiffusion 模块即可无缝应用到现有的扩散模型中，显著地解决了平均灰度值的问题。在不使用无分类器指引技术的情况下，SingDiffusion 能够显著提升当前方法的生成质量，特别是在应用于 Stable Diffusion1.5（SD-1.5）后，其生成的图像质量更是提升了 33%

论文地址：https://arxiv.org/pdf/2403.08381.pdf

项目地址：https://pangzecheung.github.io/SingDiffusion/

论文题目：Tackling the Singularities at the Endpoints of Time Intervals in Diffusion Models

逆过程的高斯特性

奇点时刻的采样

即插即用的 SingDiffusion 模块

奇点处的采样会影响扩散模型生成图像的质量。例如，在输入高或低亮度的提示时，现有方法往往只能生成平均灰度的图像，这被称为平均灰度问题。这个问题源于现有方法忽略了 t=0 时奇点处的采样，而是在 1-ϵ 时刻使用标准高斯分布作为初始分布进行采样。然而，正如上图所示，标准高斯分布与实际的 1-ϵ 时刻的数据分布存在较大的差距。

在这样的差距下，根据 Proposition 3，现有方法等同于在 t=1 时朝着一个均值为 0 的图像进行生成，即平均灰度图像。因此，现有方法难以生成亮度极强或极弱的图像。为了解决这个问题，该研究提出了一个即插即用的 SingDiffusion 方法，通过拟合标准高斯分布与实际数据分布之间的转换来弥补这一差距。

SingDiffuion 的算法如下图所示：

实验

首先，该研究在 SD-1.5、SD-2.0-base 和 SD-2.0 三个模型上验证了 SingDiffusion 解决平均灰度问题的能力。该研究选择了四个极端的提示，包括「纯白 / 黑背景」和「单色线条艺术标志在白 / 黑背景上」，作为条件进行生成，并计算生成图像的平均灰度值，如下表所示：

从表格中可以看出，该研究能够显著地解决平均灰度值问题，生成符合输入文字描述亮度的图像。此外，该研究还可视化了在这四个提示语句下的生成结果，如下图所示：

从图中可以看出，加入该方法后，现有的扩散模型能够生成偏黑或者偏白的图像。

为了进一步研究该方法对于图像质量的提升，该研究在 COCO 数据集上选择了 30,000 个描述进行了测试。首先，该研究展示了在不使用无分类器引导下，模型本身的生成能力，如下表所示：

从表格中可以看出，所提出的方法能够显著降低生成图像的 FID，并提升 CLIP 指标。值得注意的是，在 SD-1.5 模型中，该论文中的方法相比于原模型在 FID 指标上降低了 33%。

进一步地，为了验证所提出方法在无分类器引导下的生成能力，该研究还在下图中展示了在不同引导大小 ω∈[1.5,2,3,4,5,6,7,8] 下 CLIP v.s. FID 的帕累托曲线：

从图中可以看出，在相同的 CLIP 水平下，所提出的方法能够获得更低的 FID 数值，生成更逼真的图像。

此外，该研究还展示了所提出方法在不同 CIVITAI 预训练模型下的泛化能力，如下图所示：

可以看出，该研究所提出的方法仅需进行一次训练，即可轻松地应用到已有的扩散模型中，解决平均灰度问题。

最后，该研究所提出的方法还能够无缝地应用到预训练的 ControlNet 模型上，如下图所示：

从结果中可以看出，该方法能有效解决 ControlNet 的平均灰度问题。

参考文献：

[1] Tero Karras, Miika Aittala, Timo Aila, and Samuli Laine. Elucidating the design space of diffusion-based generative models. Advances in Neural Information Processing Systems (NeurIPS), pages 26565–26577, 2022. 3