OpenAI开源全新解码器，极大提升Stable Diffusion性能

作者：SAO-风夏发布时间：2023-11-08

在11月7日OpenAI的首届开发者大会上，除了推出一系列重磅产品之外，还开源了两款产品，全新解码器Consistency Decoder（一致性解码器）和最新语音识别模型Whisper v3。

据悉，Consistency Decoder可以替代Stable Diffusion VAE解码器。该解码器可以改善所有与Stable Diffusion 1.0+ VAE兼容的图像，尤其是在文本、面部和直线方面有大幅度提升。仅上线一天的时间，在Github就收到1100颗星。

Whisper large-v3是OpenAI之前开源的whisper模型的最新版本，在各种语言上的性能都有显著提升。OpenAI会在未来的API计划中提供Whisper v3。

解码器地址：https://github.com/openai/consistencydecoder

Whisper v3地址：https://github.com/openai/whisper

Consistency Decoder效果展示

Consistency Decoder算是OpenAI“一致性”家族里的新成员，所以，「AIGC开放社区」想为大家介绍一下OpenAI之前开源的另一个创新模型——Consistency Models。

扩散模型的出现极大推动了文生图片、视频、音频等领域的发展，涌现了GAN、VAE等知名模型。但是这些模型在推理的过程中，过于依赖迭代采样过程，导致生成效率非常缓慢或生成图片质量太差。

OpenAI为了突破这个技术瓶颈，提出了Consistency Models（一致性模型）框架并将其开源。该技术的最大优势是支持单步高质量生成,同时保留迭代生成的优点。简单来说，可以使文生图模型在推理的过程中又快又准攻守兼备。

此外，Consistency Models可以通过提取预先训练的扩散模型来使用，也可以作为独立的生成模型来训练，兼容性强且灵活。

开源地址：https://github.com/openai/consistency_models

论文：https://arxiv.org/abs/2303.01469

为了让大家更好的理解Consistency Models技术特点，「AIGC开放社区」先简单的介绍一下扩散模型的原理。

什么是扩散模型

扩散模型主要通过模拟扩散过程来生成数据，核心技术是将数据看作是由一个简单的随机过程（例如，高斯白噪声）经过一系列平滑变换得到的结果。

扩散模型主要由正向过程和反向过程两大块组成。正向过程（扩散过程）：首先将原始数据通过添加噪声逐渐扩散，直到变成无法识别的噪声。

具体来说，每一步都会添加一点噪声，噪声的强度通常会随着步骤的进行而增大。这个过程可以用一个随机微分方程来描述。

反向过程（去噪声过程）：然后使用一个学习到的模型从噪声数据中重建原始数据。

这个过程通常通过优化一个目标函数来进行，目标是让重建的数据与原始数据尽可能相似。

Consistency Models简单介绍

Consistency Models受扩散模型技术思路启发，直接将噪声映射到数据分布,无需迭代过程直接生成高质量图像。实验证明，如果模型输出在同一轨迹上的点保持一致,可以有效学习此映射。

简单来说，Consistency Models直接放弃了逐步去噪过程,而是直接学习把随机的噪声映射到复杂的图像上，同时加上了一致性的规则约束，避免生成的图像出现“驴唇不对马嘴”的情况。

说的更直白一点，我们如果要做一道麻婆豆腐，需要先切豆腐、配菜，然后放在马勺里进行大火翻炒，再放上调料最后出锅。

而Consistency Models的方法是直接就变出一盘麻婆豆腐，省去了所有制作流程，并且口味、菜品都是按照用户标准来的，这就是该技术的神奇之处。

基于上述技术概念，OpenAI的研究人员使用了知识蒸馏和直接训练两种方法来训练Consistency Models。

知识蒸馏：使用一个预先训练好的扩散模型（如Diffusion）,生成一些数据对,然后训练Consistency Models时让这些数据对的输出尽可能接近,来跟扩散模型进行知识蒸馏。

直接训练法:直接从训练集样本中学习数据到噪声的映射,不需要依赖预训练模型。主要是加入噪声进行数据增强,然后优化增强前后的输出一致性。

实验数据

研究人员在多个图像数据集上测试了Consistency Models,包括CIFAR-10、ImageNet 64x64和LSUN 256x256。

结果表明,知识蒸馏训练的Consistency Models效果最好,在所有数据集和步数下均优于现有最好的蒸馏技术Progressive Distillation。

例如,在CIFAR-10上,单步生成达到新记录的FID 3.55,两步生成达到2.93;在ImageNet 64x64上,单步生成FID为6.20,两步生成为4.70,均刷新记录。

直接训练方式下,Consistency Models也显示出强大的能力，在CIFAR-10上打败了大多数单步生成模型,质量接近Progressive Distillation。

此外,该模型支持进行零样本图像编辑,可实现图像去噪、插值、上色、超分辨率生成、笔触生成等多种任务,而无需专门训练。

————————————————

原文链接：https://blog.csdn.net/weixin_57291105/article/details/134283929

相关资讯

OpenAI救了Stable Diffusion！开源Dall·E3同款解码器，来自Ilya宋飏等

没想到，OpenAI捞了“竞对”StableDiffusion一把。在热火朝天的“AI春晚”上，OpenAI一口气开源两项工作，其中之一一致性解码器，专门面向SD的VAE模型。它能让图像生成质量更高、更稳定，比如多人脸、带文字图像以及线条控制方面。

OpenAI Stable Diffusion

量子位 2023-11-11

音箱和解码器对音质的提升--对话ChatGPT

音箱和解码器对提升音质谁更大？gtp：音箱和解码器都可以对音质进行提升，但具体哪一个对音质的提升更大取决于情况。如果音源本身音质较差，使用高端的解码器也难以提升音质，此时更换高品质的音箱可以大大改善音质。如果音源本身很好，但使用的音箱本身质量较低，那么更换高品质的音箱可以让音质得到极大的提升。而如果音源本身已经很好，那么通过升级解码器可以让音乐更加真实、细致和动态。解码器能够提供更好的数字转换和信号处理技术，可以让数字音频信号还原为更接近原始音频信号的模拟音频信号。综上，如果音源本身表现一般，那么更好的音

ChatGPT

沉鱼飞猫 2023-04-05

大　发　提前开奖解码器

大　发　提前开奖解码器《網0 1 2 8 5 5 ， v i p 》【企鹅 5 3 8 5 1 2 9】如果你是刚刚玩,我来教教你,如果你已经玩很久了,却不稳,我来拉拉你,如果你已经遍体鳞伤,我来帮帮你。用我们真诚的微笑，换取您对我们的满意。用我们真诚的微笑，换取您对我们的满意。同样即时设计的AI工具即时AI是一种全新的AIGC工具，可以通过自然语言描述在60s内生成高质量、高细节的Mobile/Web页面原型设计，适当的效率之王。即时AI的操作非常简单，只要模型选择完成

AIGC

IY5wU4f5Eb 2024-02-26

OpenAI救了SD！开源Dall·E3同款解码器，来自Ilya宋飏等

OpenAI救了SD！开源Dall·E3同款解码器，来自Ilya宋飏等明敏发自凹非寺量子位公众号 QbitAI 没想到，OpenAI捞了“竞对”Stable Diffusion

OpenAI Stable Diffusion

量子位 2023-11-11

ChatGPT对算力层高度依赖将极大提升PCB和连接器部件用量

ChatGPT1月月活跃用户达到1亿，是史上月活用户增长最快的消费者应用，而近日ChatGPT因用户量激增而频繁宕机，更加体现了ChatGPT对算力层的高度依赖。券商人士分析指出，ChatGPT大模型的特点带…

ChatGPT

投资快报社 2023-02-16

OpenAI开源全新解码器，极大提升Stable Diffusion性能

推荐体验

相关资讯

OpenAI救了Stable Diffusion！开源Dall·E3同款解码器，来自Ilya宋飏等

音箱和解码器对音质的提升--对话ChatGPT

大　发　提前开奖解码器

OpenAI救了SD！开源Dall·E3同款解码器，来自Ilya宋飏等

ChatGPT对算力层高度依赖将极大提升PCB和连接器部件用量

近期资讯

阿里云技术公开课：基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot

工作中对InheritableThreadLocal使用的思考

Python代码精进：工作中学到的12个代码风格

Linux下比ack更快的ag搜索命令详解

JVM实战—2.JVM内存设置与对象分配流转

Python 项目组织最佳实践：从脚本到大型项目的进化之路

探讨篇（三）：代码复用的智慧 - 提升架构的效率与可维护性

第一次使用kubebuilder的问题记录

Python世界的新星Web框架Robyn，刷新了我对Python Web框架的认知，5分钟教你入门Robyn框架

CentOS 7 安装docker

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响