当前位置:首页|资讯|OpenAI|编程

终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张|洞见

作者:阿尔法公社发布时间:2023-04-20

原标题:终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张|洞见

在 AI 画图的领域,人们一直关注的是扩散模型,例如Stable Diffusion、Midjourney、DALL-E等技术,并在其基础上构建应用。不过最近,OpenAI 提出的全新生成模型看起来要让这一领域经历一场革命。

与高调推出ChatGPT 、GPT-4不同,这次OpenAI在上个月偷偷上传了一篇论文《Consistency Models》,也不能说是偷偷,只是这次没有媒体大张旗鼓的报道,就显得这项研究有些低调。论文内容主要是关于图像生成领域的。

作者阵容也非常强大,一作是本科毕业于清华大学数理基础科学班、目前在 OpenAI 担任研究员的宋飏。宋飏将于2024年1月加入加州理工学院电子系和计算数学科学系担任助理教授。其他作者还包括OpenAI联合创始人、首席科学家Ilya Sutskever,OpenAI多模态和前沿研究部门的负责人Mark Chen,以及OpenAI研究科学家Prafulla Dhariwal。

扩散模型的时代即将结束?

前我们已经提到,OpenAI的这项研究主要是图像生成方面的,大家或多或少的都听过这项技术,例如最近热门的Midjourney和Stable Diffusion,它们大都采用扩散模型,由于其生成的图片效果惊艳,很多人都将其视为最好的工具。但扩散模型依赖于迭代生成过程,这导致此类方法采样速度缓慢,进而限制了它们在实时应用中的潜力。

OpenAI的这项研究就是为了克服这个限制,提出了Consistency Models,这是一类新的生成模型,无需对抗训练即可快速获得高质量样本。与此同时,OpenAI还发布了Consistency Models实现以及权重。

论文地址:

https://arxiv.org/pdf/2303.01469.pdf

代码地址:

https://github.com/openai/consistency_models

具体而言,Consistency Models支持快速one-step生成,同时仍然允许 few-step采样,以权衡计算量和样本质量。它们还支持零样本(zero-shot)数据编辑,例如图像修复、着色和超分辨率,而无需针对这些任务进行具体训练。Consistency Models可以用蒸馏预训练扩散模型的方式进行训练,也可以作为独立的生成模型进行训练。

研究团队通过实验证明Consistency Models在one-step和few-step生成中优于现有的扩散模型蒸馏方法。例如,在one-step生成方面,Consistency Models在CIFAR-10上实现了新的SOTA FID 3.55,在ImageNet 64 x 64 上为6.20。当作为独立生成模型进行训练时,Consistency Models在 CIFAR-10、ImageNet 64 x 64和LSUN 256 x 256等标准基准上的表现也优于single-step、非对抗生成模型。

有网友将其视为扩散模型的有力竞争者!并表示Consistency Models无需对抗性训练,这使得它们更容易训练,不容易出现模式崩溃。

还有网友认为扩散模型的时代即将结束。

更有网友测试了生成速度,3.5秒生成了64张分辨率256×256的图片,平均一秒生成18张。

接下来我们看看Consistency Model零样本图像编辑能力:

图6a展示了Consistency Model可以在测试时对灰度卧室图像进行着色,即使它从未接受过着色任务的训练,可以看出,Consistency Model的着色效果非常自然,很逼真;图6b展示了Consistency Model可以从低分辨率输入生成高分辨率图像,Consistency Model将32x32分辨率图像转成 256x256高分辨率图像,和真值图像(最右边)看起来没什么区别。图6c证明了Consistency Model可以根据人类要求生成图像(生成了有床和柜子的卧室)。

Consistency Model图像修复功能:左边是经过掩码的图像,中间是Consistency Model修复的图像,最右边是参考图像:

Consistency Model生成高分辨率图像:左侧为分辨率32 x 32的下采样图像、中间为Consistency Model生成的256 x 256图像,右边为分辨率为256x 256的真值图像。相比于初始图像,Consistency Model生成的图像更清晰。

模型介绍

Consistency Models作为一种生成模型,核心设计思想是支持single-step生成,同时仍然允许迭代生成,支持零样本(zero-shot)数据编辑,权衡了样本质量与计算量。

我们来看一下Consistency Models的定义、参数化和采样。

首先Consistency Models建立在连续时间扩散模型中的概率流 (PF) 常微分方程 (ODE) 之上。如下图 1 所示,给定一个将数据平滑地转换为噪声的 PF ODE,Consistency Models 学会在任何时间步(time step)将任意点映射成轨迹的初始点以进行生成式建模。Consistency Models一个显著的特性是自洽性(self-consistency):同一轨迹上的点会映射到相同的初始点。这也是模型被命名为 Consistency Models(一致性模型)的原因。

Consistency Models允许通过仅使用one network评估转换随机噪声向量(ODE 轨迹的端点,例如图 1 中的 x_T)来生成数据样本(ODE 轨迹的初始点,例如图 1 中的 x_0)。更重要的是,通过在多个时间步链接 Consistency Models 模型的输出,该方法可以提高样本质量,并以更多计算为代价执行零样本数据编辑,类似于扩散模型的迭代优化。

在训练方面,研究团队为 Consistency Models 提供了两种基于自洽性的方法。第一种方法依赖于使用数值 ODE 求解器和预训练扩散模型来生成 PF ODE 轨迹上的相邻点对。通过最小化这些点对的模型输出之间的差异,该研究有效地将扩散模型蒸馏为Consistency Models,从而允许通过one network评估生成高质量样本。

第二种方法则是完全消除了对预训练扩散模型的依赖,可独立训练 Consistency Models。这种方法将Consistency Models定位为一类独立的生成模型。

值得注意的是,这两种训练方法都不需要对抗训练,并且都允许Consistency Models灵活采用神经网络架构。

实验及结果

实验数据集包括CIFAR-10 、ImageNet 64x 64 、LSUN Bedroom 256 x 256 、 LSUN Cat 256 x 256。首先该研究在 CIFAR-10 上进行了一系列实验。结果图 3 所示。

Few-Step图像生成

接着该研究在ImageNet 64x 64、LSUN Bedroom 256 x 256数据集上进行实验,结果如图 4 所示。

表1表明,CD( consistency distillation )优于Knowledge Distillation、DFNO等方法。

表1和表2表明 CT( consistency training )在CIFAR-10上的表现优于所有single-step、非对抗性生成模型,即VAE和归一化流。此外,CT在不依赖蒸馏的情况下获得与PD ( progressive distillation )相当的质量,用于 single-step生成。

图5提供了EDM (Karras et al., 2022) 样本(顶部)、single-step CT样本(中)和two-step CT样本(底部)。

作者介绍

论文一作宋飏

宋飏目前是OpenAI的研究科学家。他14岁时,曾以17位评委全票通过的成绩,入选“清华大学新百年领军计划”。2016年,宋飏从清华大学数理基础科学班毕业,此后赴斯坦福深造。2022年,宋飏获斯坦福计算机科学博士学位,而后加入OpenAI。

根据其个人主页信息,从2024年1月开始,宋飏将正式加入加州理工学院电子系和计算数学科学系,担任助理教授。

Ilya Sutskever

Ilya Sutskever是OpenAI的联合创始人和首席科学家,其背景大家应该已经熟悉,不再赘述。其实在今年2月份,Sutskever曾发布了一条推文暗示:

许多人认为,伟大的人工智能进步必须包含一个新的“理念”。但实际上并非如此:许多人工智能最重要的进展形式是“哦,原来这个熟悉而不起眼的想法,在正确的情况下,实际上是非常惊人的”。

而现在发表的最新研究正好证明了这一点,基于旧概念的微调可以改变一切。

Mark Chen

Mark Chen是OpenAI多模态和前沿研究部门的负责人,同时也是美国计算机奥林匹克队的教练。

此前,他在麻省理工学院获得了数学与计算机科学学士学位,并曾在几家自营交易公司(包括Jane Street Capital)担任量化交易员,为股票和期货交易构建机器学习算法。

加入OpenAI后,他带领团队开发了DALL-E 2,并将视觉引入到GPT-4中。此外,他还领导了Codex的开发,参与了GPT-3项目,并创建了Image GPT。

Prafulla Dhariwal

Prafulla Dhariwal是OpenAI的一名研究科学家,从事生成模型和无监督学习

。在此之前,他是麻省理工学院的一名本科生,学习计算机、数学和物理学。

有趣的是,扩散模型可以在图像生成领域吊打GAN,正是他在2021年的NeurIPS论文中提出的。

本文转载自机器之心。

阿尔法公社是行业领先的天使投资基金,以发现非凡创业者为愿景,由曾经带领公司在纳斯达克上市的连续创业者于2015年创立。我们的三大特点是聚焦早期投资,协同产业力量,助力公司起步。从产业需求和科技前沿出发,我们系统性地寻找高成长性的大机会。阿尔法公社发现并投资非凡创业者,像早期联合创始人一样共同探索创业之路,协同广泛的产业力量,助力他们成为世界级的行业领袖。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1