当前位置:首页|资讯|AIGC

AIGC: InstructPix2Pix 笔记

作者:刹那-Ksana-发布时间:2023-06-28

简介

原图 + 指令 -> 编辑后的图片

InstructPix2Pix 由 2 个模型:一个自然语言模型(GPT-3)和一个文字转图像模型(SD)拼接起来

用户输入原图指令,模型将输出编辑过后的图片

训练机制

模型的训练难度在于,符合条件的数据集基本不存在。为了解决这个问题,研究团队将训练分成两个部分

  1. Fine-Tuning GPT-3

  2. 将前后两个指令生成其各自对应的图像

首先,研究团队利用一个人工输入的数据集作为 fine-tuning GPT-3 的训练集,这个训练集的格式为输入描述(Input Caption),编辑指令(Edit Instruction)和编辑后描述(Editted Caption

数据集格式

输入描述是从现有数据集中取到,编辑指令和编辑后描述这两部分都是人工编辑输入

通过上述的 fine-tuning, GPT-3 可以通过输入描述编辑指令,输出编辑后的对应描述

Prompt-to-Prompt

为了使编辑前和编辑后的图像具有一致性 (即结构、构图上的一致),模型采用了 prompt-to-prompt

prompt-to-prompt 的效果示意图

prompt-to-prompt 的巧妙之处在于,团队发现,文字和图像像素关联对应的 cross-attention 层包含了大量的结构性息

attention map 的均值和文字的对应

简单地说,如果对这个 cross-attention 层中的 attention maps 直接进行操作,就可以维持图像的其他部分不变,而只变换被操作的部分。

对 attention map 的三种操作

例如,替换文字(将一部分 attention map 替换为新的 map),加入新的文字(在原有的 map 基础上加入新的 map) ,以及改变重点(改变原有 map 的比重)

所以,根据 prompt-to-prompt,可以生成大量的配对的图像作为训练素材。

c_%7B%5Ctextbf%7BI%7D%7D (image conditioning) 和 c_%7B%5Ctextbf%7BT%7D%7D (text instruction conditioning):

L%3D%5Cmathbb%7BE%7D_%7B%5Cmathcal%7BE%7D(x)%2C%20%5Cmathcal%7BE%7D(c_I)%2Cc_T%2C%20%5Cepsilon%5Csim%20%5Cmathcal%7BN%7D(0%2C1)%2Ct%7D%5B%7C%7C%20%5Cepsilon-%5Cepsilon_%7B%5Ctheta%7D(z_t%2Ct%2C%5Cmathcal%7BE%7D(c_I)%2Cc_T)%7C%7C_2%5E2%5D

更多细节,以及效果图片参照原论文,不在此论述。

另外,推荐一个前几天看到的,讲 DDPM 的好文章:https://zhuanlan.zhihu.com/p/638442430

论文信息

InstructPix2Pix: Learning to Follow Image Editing Instructions

Tim Brooks, Aleksander Holynski, Alexei A. Efros

https://arxiv.org/abs/2211.09800

Prompt-to-Prompt Image Editing with Cross Attention Control

Amir Hertz, Ron Mokady, Jay Tenenbaum, Kfir Aberman, Yael Pritch, Daniel Cohen-Or

https://arxiv.org/abs/2208.01626





Copyright © 2025 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1