文生图实时定制！字节提出更加可控的AIGC模型RealCustom！

作者：AI做题家发布时间：2024-03-05

论文名：RealCustom: Narrowing Real Text Word for Real-Time Open-Domain Text-to-Image Customization

论文链接：https://arxiv.org/pdf/2403.00483.pdf

开源代码：https://corleone-huang.github.io/realcustom/

引言

文本到图像定制，旨在为给定的主题合成文本驱动的图像，最近已经彻底改变了内容创作。现有的作品遵循伪词范式，即将给定的主题表示为伪词，然后用给定的文本将其组合。然而，伪词与给定文本固有的纠缠影响范围导致了双重最优悖论，即给定主题的相似性和给定文本的可控性不能同时最优。

简介

本文提出了RealCustom，它首次通过精确地将主题影响限制在相关部分来将相似性从可控性中解脱出来，通过逐渐将真实文本单词从其一般内涵缩小到特定主题并使用其交叉注意来区分相关性来实现。具体而言，RealCustom引入了一种新颖的“训练-推理”解耦框架:(1)在训练过程中，RealCustom通过一种新颖的自适应评分模块来学习视觉条件与原始文本条件之间的一般对齐，以自适应调节影响量;(2)在推理过程中，提出一种新颖的自适应掩模引导策略，迭代更新给定主题的影响范围和影响量，逐步缩小真实文本单词的生成。综合实验证明了RealCustom在开放领域中卓越的实时定制能力，首次实现了给定主题前所未有的相似性和给定文本的可控性。

方法与模型

本文专注于最通用的自定义场景:只有一个图像表示给定的主题，从给定的文本为该主题生成新的高质量图像。生成的对象可能在位置、姿势、风格等方面有所不同，但它应该与给定的对象保持高度的相似性。其余部分应始终坚持给定的文本，从而确保可控性。本文所提出的RealCustom引入了一种新的“训练-推理” 解耦范例。具体来说，在训练期间， RealCustom学习视觉条件和预训练模型的原始文本条件之间的一般对齐。在推理过程中，基于学习到的对齐能力，RealCustom逐渐将真实文本单词(例如， “toy”)的生成范围缩小到给定主题(例如，独特的棕色树懒)玩具)通过迭代更新给定主体的每一步的影响范围和影响量。

1、训练

文本y和图像x首先由预训练的CLIP文本/图像编码器分别编码为文本特征fct∈Rnt×ct和图像特征fci∈ Rni×ci。这里，nt、 ct、 ni、 ci 分别是文本特征数/维和图像特征数/维。之后，自适应评分模块将文本特征fct、当前生成的特征zt ∈Rh× w× c和时间步t作为输入来估计fci 中每个特征的得分，选择关键特征的子集作为视觉条件fˆci∈Rnˆi× ，其中nˆi < ni是所选择的图像特征数。接下来，我们用另一个视觉交叉注意力扩展文本交叉注意力，以纳入视觉条件fˆyi 。具体来说，

其中增加新键Ki = WKi·f·ci，值Vi = WV i·f·ci。WKi 和WVI 为权重参数。在训练过程中，只有每个注意力块中的自适应评分模块和投影层WKi、 WVi 是可训练的，而其他预训练模型的权重保持冻结。

自适应评分模块。一方面，扩散模型本身的生成，本质上是一个由粗到细、一步一步去噪、添加细节的过程。在这个过程中，不同的步骤关注不同程度的主题细节，从早期的全局结构到后期的局部纹理。相应地，每个图像特征的重要性也在动态变化。要顺利缩小真实的文字文字，被试的图像条件也要同步适应，提供由粗到细的指导。这需要为RealCustom配备估算不同图像特征的重要性分数的能力。另一方面，利用所有图像特征作为视觉条件会导致 “训练-推理”缺口。这是因为，与训练阶段不同，在训练阶段，相同的图像作为视觉条件和输入到去噪器ϵθ ，给定的主题和推理生成结果应该只在主题部分保持相似性。因此，这种差距可以降低推理中的相似性和可控性。

上述原理激发了自适应评分模块，它为定制提供了平滑和准确的视觉条件。

首先通过加权池化将文本fct ∈Rnt×c t 和当前生成的特征zt∈Rh×w×c = Rnz×c 聚合为文本上下文ctext和视觉上下文Cvisual:

其中，Wat∈Rct×1, Wav∈Rc×1为权重参数，“softmax” 在数字维度上进行运算。然后，这些上下文被空间复制，并与图像特征fci∈Rni×ci连接，以分别估计文本分数 stexttual∈Rni×1和视觉分数Svisual∈Rni×1。这两个分数由两个轻量级的score-net进行预测，它们被实现为两层 mlp。

2、推理

RealCustom的推理范例由两个分支组成，即文本到图像 (T2I)分支，其中视觉输入设置为0，以及文本&图像到图像(TI2I)分支，其中视觉输入被设置为给定的受试者。这两个分支由我们提出的自适应掩模引导策略连接起来。具体来说，给定前一步的输出zt ，在T2I分支中执行纯文本条件去噪处理以获得输出zt T −1 ，其中提取目标真实单词(例如，“toy”)的所有层交叉注意图并将其调整为相同的分辨率(与最大的地图大小相同，即稳定扩散中的 64 ×64)。聚合后的注意图记为M∈R64×64。接下来，应用Top-K选择，即给定目标比率γscope∈[0,1]，只保留交叉注意得分最高的γscope ×64 ×64区域，其余区域设为0。选定的交叉注意力分布图M¯被其最大值归一化为:

其中max(·)表示最大值。这背后的理由是，即使在这些选定的部分，不同区域的主题相关性也是不同的。

在TI2I分支中，首先将影响范围M´乘以当前生成的特征zt ，为当前生成步骤提供准确的视觉条件。原因是在计算影响量时，只考虑与主题相关的部分。其次，Mˆ 与视觉交叉注意结果相乘，以防止在其他与主题无关的部分对给定文本的可控性产生负面影响。

其中应用了必要的调整大小操作，以匹配Mˆ的大小与每个交叉注意力块的分辨率。TI2I分支的去噪输出记为ztTI−1。扩展无分类器指导，产生下一步去噪的潜在特征zt−1 为:

随着给定主体平滑准确的影响量注入到当前步骤中，真实词的生成将从最初的一般内涵逐渐缩小到具体主体，为下一步的生成塑造一个更加精准的影响范围。通过这种迭代式的更新和生成，我们实现了实时定制，将给定主题的相似性与给定文本的可控性解耦，从而实现两者的最优。更重要的是，由于自适应评分模块以及视觉交叉注意力层都是在通用文本-图像数据集上训练的，因此通过使用任何目标真实单词，推理可以普遍应用于任何类别，从而实现卓越的开放域定制能力。

实验与结果

RealCustom在stable Diffusion上实现，并基于美学分数在Laion-5B的过滤子集上进行训练，使用 16个A100 gpu进行16w迭代，学习率为1e-5。除非另有规定，使用具有50个样本步骤的DDIM采样器进行采样和无分类器指导ωt ，ωi 为7.5和12.5。Top-K比值γ num = 0.8， γscope = 0.25。

与现有的基于优化的范式(即Textual Inversion，DreamBooth， CustomDiffusion)和基于编码器的先进技术(ELITE， BLIP-Diffusion)进行了比较。

在实时定制场景中，我们提出的RealCustom和以前的伪词范式的最新最先进方法之间的定性比较

文生图实时定制！字节提出更加可控的AIGC模型RealCustom！

推荐体验

相关资讯

PhotoMaker 人像定制文生图模型使用教程

字节发布快如闪电的文生图模型

VisorGPT: 如何基于 GPT 和 AIGC 模型定制一个可控的生成模型

字节发布文生图开放模型SDXL-Lightning

AIGC周报｜30秒定制一个文生图模型；60美元让AI玩转《我的世界》；手机版“文生图”模型：2秒不到出一张图

近期资讯

小米空调中国漠河-30℃冬测：全面对标一线品牌！

创维汽车正式登陆香港：提供的士版可供选择

高速路上出现小动物是躲还是直接撞：官方解读来了

网红王境泽自爆：斗鱼签约费曾高达1500万对真香ptsd

中蓝电子严正声明：台媒“爆雷”报道不实内容凭空臆想

厦门海关截获16.1公斤牛鞭：禁止携带肉类及其制品进境

北京高层灭火有望用上无人机：低空安全应急产业园落户房山

长发美女脚踩光头女主！玩家画顽皮狗新作爽图

没打过DEI同行！曝“龙腾4”欧洲销量低于《星战亡命徒》

重温苹果10大高光时刻：下一次惊喜明年可期

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响