何庆东 投稿
量子位 | 公众号 QbitAI
超越ControlNet++,让文生图更可控的新框架来了!
腾讯优图、南洋理工、浙大等研究机构联合推出 DynamicControl,直接将多模态大语言模型 (MLLM)的 推理能力集成到文本生成图像 (T2I))任务中。
而且还提出了一种新颖、高效的多控制适配器,可以自适应地选择不同的条件,从而实现动态多控制对齐。
实验结果显示,DynamicControl大大增强了可控性,且不会牺牲图像质量或图像文本对齐。
话不多说,下面来看具体内容。
DynamicControl:动态条件选择新架构
基于ControlNet类模型,之前的工作探索了各种控制信号,例如布局约束、分割图和深度图,以决定生成的图像中的空间排列、物体形状和景深。
此外,该领域还见证了使用快速工程和交叉注意约束来进一步完善图像生成的调节。
不过现有方式均存在各自的局限性。
比如,考虑到一个对象的多种条件,一条线路 (例如UniControl、UniControlNet)在训练过程中随机选择一次激活一种条件,如图1(a) 所示。
这种处理不同视觉条件的能力非常低效,将大大增加训练的计算负担和时间成本。
另一类方法 (例如AnyControl、ControlNet++)使用固定数量 (通常为2或4)的条件,并采用MoE设计或多控制编码器来解决条件数量变化的问题,如图1(b) 所示。
然而,这种固定数量方案并没有从根本上解决多条件问题,也没有考虑多条件是否与生成结果相冲突。
虽然这些方法扩展了受控图像生成的可行性和应用,但 在不同条件下增强可控性的清晰而全面的方法仍然是一个正在进行的研究和开发领域。这凸显了在T2I扩散模型中集成和优化控制机制以实现更可靠和更详细的图像合成方面需要不断创新。
给定来自同一主题的多个条件,对于相同的文本提示,不同的条件在颜色、纹理、布局,合理性等方面产生不同的结果。
此外,从与源图像的相似度SSIM得分来看,不同的条件难以准确生成与输入源图像一致的图像。这也表明不同条件对生成更好图像的贡献不同,有些条件甚至会产生负面影响。
因此,在先前的方法中,仅选择一个或固定数量的条件而不考虑它们在生成更接近源图像的图像方面的重要性以及每个条件之间的内部关系是次优的。
为了解决这个问题,研究提出了 DynamicControl,这是一个支持多种控制信号动态组合的新框架,它可以 自适应地选择不同数量和类型的条件,如图1(c)所示。
具体咋做到的
算法的整体流程如下图所示。
给定多种条件,研究首先引入 双循环控制器来产生真实的排名分数,作为与MLLM结合训练条件评估器的监督信号。
然后,这些排名的条件与来自预训练条件评估器的选择分数由多控制适配器动态编码,以实现可控的图像生成。
Double-Cycle Controlle
鉴于研究将多条件可控性概念化为输入条件之间的动态选择,因此使用 判别奖励模型来衡量这种选择是可行的。
通过量化生成模型的输出,研究能够依靠这些定量评估来集体增强各种条件控制的优化,以促进更可控的生成过程。
具体来说,给定多个条件和文本提示,研究首先利用预训练的条件生成模型为每个条件生成图像。
然后通过不同的预训练判别模型提取相应的反向条件。
基于这些生成的图像和反向条件,研究设计了一个双循环控制器,对输入的多个控制条件进行初始重要性评估。该双循环控制器由两个一致性分数组成,即条件一致性和图像一致性。
(1)条件一致性。对于每个输入条件和生成图像的相应输出条件,研究优化了条件循环一致性损失以获得更好的可控性,其公式为:
这里研究对扰动图像执行 单步采样,其中D是判别奖励模型,用于优化G的可控性。L表示抽象度量函数,可根据特定的视觉条件适应各种具体形式。
这种灵活性使其能够根据不同视觉分析任务的独特要求进行定制,从而增强模型在不同场景中的适用性和有效性。
(2)反向图像一致性。除了条件一致性之外,研究还采用反向图像一致性损失来保证原始图像与生成的图像相似。
研究通过最小化生成的图像和源图像之间的像素和语义差异来实现这一点。给定源图像和生成的图像的CLIP嵌入,损失定义为:
这种损失确保模型在应用条件和文本指令时能够忠实地反转条件并返回到源图像,通过最小化源图像和生成的图像之间的差异来强制执行模型。
Condition Evaluator
虽然双循环控制器可以对各种控制条件进行综合评分,但仍然面临两个挑战:
(i)使用预先训练的生成模型进行图像合成都会给结果带来较高的不确定性,这意味着对所采用的基础生成模型的依赖性很高。
(ii)源图像在测试过程中不可用,尤其是在用户指定的任务中。为了解决这个问题,研究在网络架构中引入了多模态大语言模型(MLLM)。
如图3所示,给定条件c1、c2、…、cN和指令τ,研究的主要目标是利用双周期控制器的得分排序来优化条件的最佳排序。
研究用N个新标记“<con0>、…、<conN>”,扩展了LLaVA的原始LLM词汇表以表示生成信息,并将这些标记附加到指令τ的末尾。
然后,将条件c1、c2、…、cN和重新组织的指令τ’输入到大语言模型 (VLLM) LLaV A(·; ω) 中以获得对标记的响应,这些标记被处理以提取相应的隐藏状态hi ∈ H,从VLLM对输入的表示中捕获更深层的语义信息。
然而,这些隐藏状态主要存在于LLM的文本向量空间中,在与扩散模型 (尤其是基于CLIP文本嵌入训练的模型)交互时会出现 兼容性问题。这种差异可能会阻碍模型之间的有效集成。
考虑到这一点,研究迁移了Q-Former,以将隐藏状态细化为与扩散模型兼容 的嵌入fc 。
转换过程表示为:
循环优化过程可以表述为:
随后,每个条件的LLM预测结果由双循环控制器的相应排序分数进行监督,从而优化最终的排序排名。 该过程表示为:
多控制适配器动态编码
为了适应多种动态控制条件的同时应用,作者们创新性地设计了一个多控制适配器。该适配器用于自适应地解释复杂的控制信号,从而能够从文本提示和动态空间条件中提取全面的多控制嵌入。
在获得经过良好预训练的条件评估器后,可以利用其强大的理解能力对所有输入条件进行评分。
从评分条件池中,只有那些 达到或超过预定义阈值的条件才会被选中参与后续的T2I模型优化。
这种选择性方法确保只有 最相关和最高质量的条件才能参与训练过程,从而有可能提高T2I模型的有效性和效率。
关于阈值设置,它不是手动预定义的,也不是在训练集内的所有数据对中保持一致的。相反,它被配置为一个可学习的参数,允许模型自适应地确定和调整各种数据集的阈值。
因此,这种自适应机制导致动态和多样化的控制条件在数量和类型上都没有冲突。
这些条件在训练过程中的使用取决于每个数据集的具体特征。这种方法确保训练能够根据各种数据输入的独特需求和细微差别进行量身定制。
实验结果
概括而言,来自各种条件控制的实验结果表明,DynamicControl大大增强了可控性,而不会牺牲图像质量或图像文本对齐。
其中,不同条件控制和数据集下的可控性比较如下。
不同条件控制和数据集下的FID(↓)/ CLIP 分数(↑)比较如下。
可视化结果也出来了。
总结
在论文中,研究从定量和定性的角度证明了现有的专注于可控生成的研究仍然未能充分利用多种控制条件的潜力,导致生成的图像与输入条件不一致。
为了解决这个问题,研究引入了DynamicControl ,它使用高效的条件评估器对条件进行排序,明确优化了多个输入条件和生成的图像之间的一致性,从而将MLLM的推理能力集成到T2I生成任务中。
此外,研究还提出了一种新颖而高效的多控制适配器,可以自适应地选择不同的条件,从而实现动态多控制对齐。
来自各种条件控制的实验结果表明,DynamicControl大大增强了可控性,而不会牺牲图像质量或图像文本对齐。
这为可控视觉生成提供了新的视角。
论文:
https://arxiv.org/abs/2412.03255
项目主页:
https://hithqd.github.io/projects/Dynamiccontrol/
— 完—
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉我们:
你是谁,从哪来,投稿内容
附上论文/项目主页链接,以及联系方式哦
我们会(尽量)及时回复你