论文名:RealCustom: Narrowing Real Text Word for Real-Time Open-Domain Text-to-Image Customization
论文链接:https://arxiv.org/pdf/2403.00483.pdf
开源代码:https://corleone-huang.github.io/realcustom/
引言
文本到图像定制,旨在为给定的主题合成文本驱动的图像,最近已经彻底改变了内容创作。现有的作品遵循伪词范式,即将给定的主题表示为伪词,然后用给定的文本将其组合。然而,伪词与给定文本固有的纠缠影响范围导致了双重最优悖论,即给定主题的相似性和给定文本的可控性不能同时最优。
简介
本文提出了RealCustom,它首次通过精确地将主题影响限制在相关部分来将相似性从可控性中解脱出来,通过逐渐将真实文本单词从其一般内涵缩小到特定主题并使用其交叉注意来区分相关性来实现。具 体而言,RealCustom引入了一种新颖的“训练-推理”解耦框 架:(1)在训练过程中,RealCustom通过一种新颖的自适应 评分模块来学习视觉条件与原始文本条件之间的一般对 齐,以自适应调节影响量;(2)在推理过程中,提出一种新颖 的自适应掩模引导策略,迭代更新给定主题的影响范围 和影响量,逐步缩小真实文本单词的生成。综合实验证明 了RealCustom在开放领域中卓越的实时定制能力,首次实现了给定主题前所未有的相似性和给定文本的可控性。
方法与模型
本文专注于最通用的自定义场景:只有一个图像表示给 定的主题,从给定的文本为该主题生成新的高质量图 像。生成的对象可能在位置、姿势、风格等方面有所 不同,但它应该与给定的对象保持高度的相似性。其 余部分应始终坚持给定的文本,从而确保可控性。本文所提出的RealCustom引入了一种新的“训练-推理” 解耦范例。具体来说,在训练期间, RealCustom学习视觉条件和预训练模型的原始文本条 件之间的一般对齐。在推理过程中,基于学习到的对 齐能力,RealCustom逐渐将真实文本单词(例如, “toy”)的生成范围缩小到给定主题(例如,独特的棕 色树懒)玩具)通过迭代更新给定主体的每一步的影响范围和影 响量。
1、训练
文本y和图像x首先由预训练的CLIP文本/图 像编码器分别编码为文本特征fct∈Rnt×ct和图像特征fci∈ Rni×ci。这里,nt、 ct、 ni、 ci 分别是文本特征数/维和图像特 征数/维。之后,自适应评分模块将文本特征fct、 当前生成 的特征zt ∈Rh× w× c和时间步t作为输入来估计fci 中每个特征 的得分,选择关键特征的子集作为视觉条件fˆci∈Rnˆi× ,其中nˆi < ni是所选择的图像特征数。接下来,我们 用另一个视觉交叉注意力扩展文本交叉注意力,以纳入视 觉条件fˆyi 。具体来 说,
其中增加新键Ki = WKi·f·ci,值Vi = WV i·f·ci。WKi 和WVI 为权重参数。在训练过程中,只有每个注意力块中的自适 应评分模块和投影层WKi、 WVi 是可训练的,而其他预训练 模型的权重保持冻结。
自适应评分模块。一方面,扩散模型本身的生成,本 质上是一个由粗到细、一步一步去噪、添加细节的过程。在这个过程中,不同的步骤关注不同程度的主题细节, 从早期的全局结构到后期的局部纹理。相应地,每个图像 特征的重要性也在动态变化。要顺利缩小真实的文字文字, 被试的图像条件也要同步适应,提供由粗到细的指导。这需要为RealCustom配备估算不同图像特征的重要性分数的 能力。另一方面,利用所有图像特征作为视觉条件会导致 “训练-推理”缺口。这是因为,与训练阶段不同,在训练阶段,相同的图像作为视觉条件和输入到去噪器ϵθ ,给定的主题和推理生成结果应该只在主题部分保持相似性。因此,这种差距可以降低推理中的相似性和可控性。
上述原理激发了自适应评分模块,它为定制提供了平 滑和准确的视觉条件。
首先通过加权池化将 文本fct ∈Rnt×c t 和当前生成的特征zt∈Rh×w×c = Rnz×c 聚合为文本上下文ctext和视觉上下文Cvisual:
其中,Wat∈Rct×1, Wav∈Rc×1为权重参数,“softmax” 在数字维度上进行运算。然后,这些上下文被空间复制, 并与图像特征fci∈Rni×ci连接,以分别估计文本分数 stexttual∈Rni×1和视觉分数Svisual∈Rni×1。这两个分 数由两个轻量级的score-net进行预测,它们被实现为两层 mlp。
2、推理
RealCustom的推理范例由两个分支组成,即文本到图像 (T2I)分支,其中视觉输入设置为0,以及文本&图像到图 像(TI2I)分支,其中视觉输入被设置为给定的受试者。这两个分支由我们提出的自适应掩模引导策略连接起来。具体来说,给定前一步的输出zt ,在T2I分支中执行纯文 本条件去噪处理以获得输出zt T −1 ,其中提取目标真实单 词(例如,“toy”)的所有层交叉注意图并将其调整为相 同的分辨率(与最大的地图大小相同,即稳定扩散中的 64 ×64)。聚合后的注意图记为M∈R64×64。接下来, 应用Top-K选择,即给定目标比率γscope∈[0,1],只保留 交叉注意得分最高的γscope ×64 ×64区域,其余区域设 为0。选定的交叉注意力分布图M¯被其最大值归一化为:
其中max(·)表示最大值。这背后的理由是,即使在这些 选定的部分,不同区域的主题相关性也是不同的。
在TI2I分支中,首先将影响范围M´乘以当前生成的 特征zt ,为当前生成步骤提供准确的视觉条件。原因是 在计算影响量时,只考虑与主题相关的部分。其次,Mˆ 与视觉交叉注意结果相乘,以防止在其他与主题无关的 部分对给定文本的可控性产生负面影响。
其中应用了必要的调整大小操作,以匹配Mˆ的大小与 每个交叉注意力块的分辨率。TI2I分支的去噪输出记为ztTI−1。扩展无分类器指导,产生下一步去噪的潜在特征zt−1 为:
随着给定主体平滑准确的影响量注入到当前步骤中, 真实词的生成将从最初的一般内涵逐渐缩小到具体主体, 为下一步的生成塑造一个更加精准的影响范围。通过这 种迭代式的更新和生成,我们实现了实时定制,将给定 主题的相似性与给定文本的可控性解耦,从而实现两者 的最优。更重要的是,由于自适应评分模块以及视觉交 叉注意力层都是在通用文本-图像数据集上训练的,因此 通过使用任何目标真实单词,推理可以普遍应用于任何 类别,从而实现卓越的开放域定制能力。
实验与结果
RealCustom在stable Diffusion上实现,并基于 美学分数在Laion-5B的过滤子集上进行训练,使用 16个A100 gpu进行16w迭代,学习率为1e-5。除非另有 规定,使用具有50个样本步骤的DDIM采样器进行采 样和无分类器指导ωt ,ωi 为7.5和12.5。Top-K比值γ num = 0.8, γscope = 0.25。
与现有的基于优化的范式(即Textual Inversion,DreamBooth, CustomDiffusion)和基于编 码器的先进技术(ELITE, BLIP-Diffusion)进行了比较。