AIGC: InstructPix2Pix 笔记

作者：刹那-Ksana-发布时间：2023-06-28

AIGC

简介

InstructPix2Pix 由 2 个模型：一个自然语言模型（GPT-3）和一个文字转图像模型（SD）拼接起来

用户输入原图和指令，模型将输出编辑过后的图片

训练机制

模型的训练难度在于，符合条件的数据集基本不存在。为了解决这个问题，研究团队将训练分成两个部分

Fine-Tuning GPT-3
将前后两个指令生成其各自对应的图像

首先，研究团队利用一个人工输入的数据集作为 fine-tuning GPT-3 的训练集，这个训练集的格式为输入描述（Input Caption），编辑指令（Edit Instruction）和编辑后描述（Editted Caption）

输入描述是从现有数据集中取到，编辑指令和编辑后描述这两部分都是人工编辑输入

通过上述的 fine-tuning, GPT-3 可以通过输入描述和编辑指令，输出编辑后的对应描述

Prompt-to-Prompt

为了使编辑前和编辑后的图像具有一致性 (即结构、构图上的一致)，模型采用了 prompt-to-prompt

prompt-to-prompt 的巧妙之处在于，团队发现，文字和图像像素关联对应的 cross-attention 层包含了大量的结构性息

简单地说，如果对这个 cross-attention 层中的 attention maps 直接进行操作，就可以维持图像的其他部分不变，而只变换被操作的部分。

例如，替换文字（将一部分 attention map 替换为新的 map），加入新的文字（在原有的 map 基础上加入新的 map），以及改变重点（改变原有 map 的比重）

所以，根据 prompt-to-prompt，可以生成大量的配对的图像作为训练素材。

$c_%7B%5Ctextbf%7BI%7D%7D$ (image conditioning) 和 $c_%7B%5Ctextbf%7BT%7D%7D$ (text instruction conditioning):

$L%3D%5Cmathbb%7BE%7D_%7B%5Cmathcal%7BE%7D(x)%2C%20%5Cmathcal%7BE%7D(c_I)%2Cc_T%2C%20%5Cepsilon%5Csim%20%5Cmathcal%7BN%7D(0%2C1)%2Ct%7D%5B%7C%7C%20%5Cepsilon-%5Cepsilon_%7B%5Ctheta%7D(z_t%2Ct%2C%5Cmathcal%7BE%7D(c_I)%2Cc_T)%7C%7C_2%5E2%5D$

更多细节，以及效果图片参照原论文，不在此论述。

另外，推荐一个前几天看到的，讲 DDPM 的好文章：https://zhuanlan.zhihu.com/p/638442430

论文信息

InstructPix2Pix: Learning to Follow Image Editing Instructions

Tim Brooks, Aleksander Holynski, Alexei A. Efros

https://arxiv.org/abs/2211.09800

Prompt-to-Prompt Image Editing with Cross Attention Control

Amir Hertz, Ron Mokady, Jay Tenenbaum, Kfir Aberman, Yael Pritch, Daniel Cohen-Or

https://arxiv.org/abs/2208.01626

相关资讯

InstructPix2Pix

InstructPix2Pix: Learning to Follow Image Editing Instructions：我们提出了一种根据人类instruction编辑图像的方法：给定input image和一段written instruction，模型会根据这些指令编辑图像。为了获取此问题的训练数据，我们结合了两个大型预训练模型的知识——一个语言模型（GPT-3）和一个文本到图像模型（Stable Diffusion）——生成了大量图像编辑示例数据集。我们的条件扩散模型InstructPi

Stable Diffusion

桃桃仁_ 2024-08-10

AI图像编辑，InstructPix2Pix软件体验

现在关于机器学习与人工智能的话题依旧火热，这几天（23年2月初），Gmail谷歌邮箱的创始人Paul Buchheit还在吐槽：“ChatGPT一类的人工智能 (AI) 将颠覆谷歌，ChatGPT虽然以目前的体量无法对谷歌造成伤害，但可能会改变人们获取信息的方式。”这话能不能验证暂时放一边，光是通过这些表述，大家也能感受出来：科技巨头对新出现的技术还是非常警惕的……关于AI内容生成的工具，上期给大家推荐过一套在本地就能免费使用、没有出图内容限制的AI制图环境，但有不少朋友说还是太麻烦了，不会操作啥的。那么

人工智能谷歌 ChatGPT

果核剥壳 2023-02-03

使用 InstructPix2Pix 对 Stable Diffusion 进行指令微调

本文主要探讨如何使用指令微调的方法教会 Stable Diffusion 按照指令 PS 图像。这样，我们 Stable Diffusion 就能听得懂人话，并根据要求对输入图像进行相应操作，如: 将输入的自然图像卡通化。图 1：我们探索了 Stable Diffusion 的指令微调能力。这里，我们使用不同的图像和提示对一个指令微调后的 Stable Diffusion 模型进行了测试。微调后的模型似乎能够理解输入中的图像操作指令。（建议放大并以彩色显示，以获得最佳视觉效果）InstructPix2P

Stable Diffusion

HuggingFace 2023-06-20

浅析图像中的条件生成模型pix2pix

最近AIGC的爆火，不管是AI绘图还是ChatGPT，都让生成式模型成为了大家关注的焦点。而在目前主流图像生成模型DiffusionNet之前，相信没有人不承认GAN（Generative Adversarial Nets）是生成模型中划时代的作品，以至于当时GAN的衍生模型异常之多。这篇文章就来介绍一个较为著名的GAN的衍生模型——pix2pix[1]。本文将以以下几个方面来对模型进行介绍：GAN系列入门介绍模型结构及基本原理patchGAN一些消融实验一、GAN系列入门介绍1. GAN：GAN[2]的

AIGC ChatGPT

Nik_Li 2023-03-29

随笔记 #2

诶...诶？下雨了吗？虽然这里吧...并没有秋天，但是作为盆地...下雨可真常见。深夜，人人都在梦乡之中，而也有人正在夜晚中尽力去做自己的事呢。 ... 啊，好像是暴雨。至少外面的雨下的很大，打在雨棚、窗户、地面上发出嘈杂的“哗啦哗啦”声。静谧的深夜，搭配着这雨声，似乎很不错的样子。也就可能显得有那么一些孤单而已。哈，我甚至还在找着ChatGPT谈话，令人感叹。（至少不会显得那么孤独，对吧？）就打开音乐，就着雨水的背景音，继续忙碌吧。

ChatGPT

567890123401234 2023-10-19

AIGC: InstructPix2Pix 笔记

简介

训练机制

Prompt-to-Prompt

论文信息

推荐体验

相关资讯

InstructPix2Pix

AI图像编辑，InstructPix2Pix软件体验

使用 InstructPix2Pix 对 Stable Diffusion 进行指令微调

浅析图像中的条件生成模型pix2pix

随笔记 #2

近期资讯

“2024短视频短剧产业论坛、短视频蓝皮书发布暨短剧盛典”将在南昌举行

“小店”大火！万事利布局社交电商，积极拥抱销售新模式

12月AppStore中国免费榜(生活)TOP99：美团支付宝位列前10

小米REDMI Book 16 2025官宣：与Turbo 4同场发布

激光显示技术里程碑海信自研LPU斩获人民匠心技术奖

每小时装车量达40吨，双环科技自研吨袋智能装车系统投入运行

联发科把全大核卷到次旗舰！看天玑8400的破局之路：剑指越级体验

投融界智研新兴产业：下一个超级硬件市场

红米REDMI Book 16 2025官宣：全新酷睿处理器、19.05小时长续航

兵团着力打造护企成长“生态圈”

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响