比扩散模型快50倍！OpenAI发布多模态模型实时生成进展

作者：量子位发布时间：2024-10-24

比扩散模型快50倍！OpenAI发布多模态模型实时生成进展

量子位

2024-10-24 13:17发布于北京量子位官方账号

全文1749字，阅读约需5分钟，帮我划重点

划重点

01OpenAI发布多模态模型实时生成研究，速度比扩散模型快50倍，仅用两步采样。

02研究团队成功将连续时间一致性模型的训练规模扩展到了15亿参数，实现了在512×512分辨率的ImageNet数据集上的训练。

03为此，研究人员提出了TrigFlow框架，统一了EDM和Flow Matching两种方法，解决了训练不稳定的挑战。

04通过改进训练目标，包括切向量归一化和自适应权重等技术，提高了训练稳定性。

05实验结果显示，改进后的一致性模型在多个基准数据集上表现优异，FID分数差距在10%以内。

以上内容由腾讯混元大模型生成，仅供参考

西风发自凹非寺
量子位 | 公众号 QbitAI

两位清华校友，在OpenAI发布最新研究——

生成图像，但速度是扩散模型的50倍。

路橙、宋飏再次简化了一致性模型，仅用两步采样，就能使生成质量与扩散模型相媲美。

他们成功将连续时间一致性模型的训练规模扩展到了前所未有的15亿参数，并实现了在512×512分辨率的ImageNet数据集上的训练。

参数15亿模型在单张A100 GPU上无需任何推理优化即可在0.11秒内生成一个样本。

团队还表示通过定制系统优化，可以进一步加速，为实时生成图像、音频和视频提供新的可能。

值得一提的是，论文仅有的两位作者还都是清华校友。

该项研究发布后得到大量网友点赞转发。

把正在休假的Openai总裁Greg Brockman都炸出来了：

多模态模型正迈向实时生成。

那么，sCM是如何实现的？

两步采样，50倍加速

一致性模型是一种快速的扩散模型替代方案。

当前扩散模型的采样方法通常需要数十到数百个连续步骤才能生成单个样本，这限制了其实时应用的效率和可扩展性。

与逐步通过大量去噪步骤生成样本的扩散模型不同，它旨在一步直接将噪声转换为无噪声样本。

OpenAI最新这项研究提出了一种改进连续时间一致性模型（Continuous-time Consistency Models）的综合方法，主要包含题目中提到的三个关键点：简化、稳定和扩展。

论文指出，现有一致性模型主要采用离散时间步训练，这种方法会引入额外的超参数并容易产生离散化误差。尽管连续时间公式可以避免这些问题，但之前的工作中连续时间一致性模型始终面临训练不稳定的挑战。

为此，论文首先提出了TrigFlow，巧妙地统一了EDM（Exponential Diffusion Model）和Flow Matching两种方法。

TrigFlow使扩散过程、扩散模型参数化、PF-ODE、扩散训练目标和一致性模型参数化都能够拥有简洁的表达式，如下所示。

在此基础上，研究人员深入分析了导致训练连续时间一致性模型不稳定的原因。

在TrigFlow框架的基础上引入了几项理论上的改进，重点是参数化、网络架构和训练目标。

连续时间一致性模型训练的关键是：

取决于：

经过进一步分析，研究人员发现不稳定源自于时间导数：

并据此提出了三个关键改进：

采用恒等时间变换c_noise(t)=t代替原有的对数正切变换，避免了t接近π/2时的数值不稳定性；
使用位置时间嵌入替代傅里叶嵌入，减少了导数震荡；
引入自适应双重归一化层替代AdaGN，在保持模型表达能力的同时提高了训练稳定性。

此外，论文还改进了训练目标，包括切向量归一化和自适应权重等技术。

以上种种改进使得研究人员成功将时间一致性模型的训练规模扩展到15亿参数，并在多个基准数据集上表现优异。

CIFAR-10上的FID（越低越好）为2.06，ImageNet 64×64上为1.48，ImageNet 512×512上为1.88。

特别值得注意的是，这些模型只需要两步采样就能达到接近最好的扩散模型的生成质量（FID差距在10%以内），而计算开销仅为后者的10%。

研究人员还比较了改进后的一致性模型与变分分数蒸馏（VSD）方法的区别，发现一致性模型能产生更多样的样本，并且在更高的引导水平下表现更好。

他们还有一个关键发现，随着teacher扩散模型的规模扩大，sCM的改进也呈比例增加。

用FID分数的比率来衡量样本质量的相对差异在模型大小不同的规模上是一致的，这意味着当模型规模增加时，样本质量的绝对差异会减小。

此外，增加sCM的采样步骤可以进一步减少质量差距。

作者简介

路橙

去年在清华大学TSAIL实验室，在朱军教授指导下获得博士学位；2019年获清华大学计算机科学与技术系学士学位。

现在他是OpenAI研究科学家，对大规模深度生成模型和强化学习算法感兴趣。

喜欢在数学理论和实际应用技巧之间找到理想的平衡点。

他对一致性模型、扩散模型、归一化流和基于能量的模型及其在图像生成、3D 生成和强化学习中的应用有丰富的研究经验。

宋飏

宋飏在清华大学获数学和物理学士学位后，在斯坦福大学获得了计算机科学博士学位，导师Stefano Ermon。

其研究目标是开发能够理解、生成并处理多种形态高维数据的强大AI模型。

目前，宋飏专注于改进生成模型，包括它们的训练方法、架构设计、对齐、鲁棒性、评估技巧及推理效率。

他对探索生成模型作为科学发现工具的潜力也很感兴趣。

参考链接：
[1]https://x.com/OpenAI/status/1849139783362347293
[2]https://luchengthu.github.io/
[3]https://yang-song.net/

比扩散模型快50倍！OpenAI发布多模态模型实时生成进展

比扩散模型快50倍！OpenAI发布多模态模型实时生成进展

两步采样，50倍加速

作者简介

推荐体验

相关资讯

比扩散模型快50倍！OpenAI发布多模态模型实时生成进展

比扩散模型快50倍！OpenAI发布多模态模型实时生成进展，作者还是清华校友，把休假总裁Greg都炸出来了

OpenAI发布全新模型sCM：图像生成速度提升50倍，视频实时生成将不再是梦

OpenAI新生成模型开源炸场，比扩散模型更快更强

OpenAI 公布 AI 文生图“sCM”，号称效率是传统扩散模型 50 倍

近期资讯

推动智慧水务发展联合水务水环境智慧管理机器人首航

数字时代视频电话使用技巧：提升沟通质量与亲密感的指南

海尔智家获得发明专利授权：“用于考勤的方法及装置、考勤系统”

全球首个重症医疗大模型落地

格力电器获得发明专利授权：“电机转轴和磁悬浮电机”

中大科技通过专精特新“小巨人”企业复核

贵州“高瓦斯突出矿区无煤柱自成巷110工法智能化装备及技术”达到国际领先水平

TCL 雷鸟新品拍摄眼镜 V3 与光波导黑科技将亮相 CES 2025

北京中轴线的赛博版：除了线上观摩清代皇帝祭祀，还能成为“数字打更人”

手机无法开机的原因及解决方法详解

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响