Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

作者：人工智能尹会长发布时间：2024-03-07

Stable Diffusion Sora

文章来源：量子位公众号

免责声明：如有侵权请联系删除

很快啊，“文生图新王”Stable Diffusion 3的技术报告，这就来了。

全文一共28页，诚意满满。

“老规矩”，宣传海报（⬇️）直接用模型生成，再秀一把文字渲染能力：

所以，SD3这比DALL·E 3和Midjourney v6都要强的文字以及指令跟随技能，究竟怎么点亮的？

技术报告揭露：

全靠多模态扩散Transformer架构MMDiT。

成功关键是对图像和文本表示使用单独两组权重的方式，由此实现了比SD3之前的版本都要强的性能飞升。

具体几何，我们翻开报告来看。

微调DiT，提升文本渲染能力

在发布SD3之初，官方就已经透露它的架构和Sora同源，属于扩散型Transformer——DiT。

现在答案揭晓：

由于文生图模型需要考虑文本和图像两种模式，Stability AI比DiT更近一步，提出了新架构MMDiT。

这里的“MM”就是指“multimodal”。

和Stable Diffusion此前的版本一样，官方用两个预训练模型来获得合适和文本和图像表示。

其中文本表示的编码用三种不同的文本嵌入器（embedders）来搞定，包括两个CLIP模型和一个T5模型。

图像token的编码则用一个改进的自动编码器模型来完成。

由于文本和图像的embedding在概念上完全不是一个东西，因此，SD3对这两种模式使用了两组独立的权重。

（有网友吐槽：这个架构图好像要启动“人类补完计划”啊，嗯是的，有人就是“看到了《新世纪福音战士》的资料才点进来这篇报告的”

）

言归正传，如上图所示，这相当于每种模态都有两个独立的transformer，但是会将它们的序列连接起来进行注意力操作。

这样，两种表示都可以在自己的空间中工作，同时还能考虑到另一种。

最终，通过这种方法，信息就可以在图像和文本token之间“流动”，在输出时提高模型的整体理解能力和文字渲染能力。

并且正如之前的效果展示，这种架构还可以轻松扩展到视频等多种模式。

具体测试则显示，MMDiT出于DiT却胜于DiT：

它在训练过程中的视觉保真度和文本对齐度都优于现有的文本到图像backbone，比如UViT、DiT。

重新加权流技术，不断提升性能

在发布之初，除了扩散型Transformer架构，官方还透露SD3结合了flow matching。

什么“流”？

如今天发布的论文标题所揭露，SD3采用的正是“Rectified Flow”（RF）。

这是一个“极度简化、一步生成”的扩散模型生成新方法，入选了ICLR2023。

它可以使模型的数据和噪声在训练期间以线性轨迹进行连接，产生更“直”的推理路径，从而可以使用更少的步骤进行采样。

基于RF，SD3在训练过程中引入了一张全新的轨迹采样。

它主打给轨迹的中间部分更多权重，因为作者假设这些部分会完成更具挑战性的预测任务。

通过多个数据集、指标和采样器配置，与其他60个扩散轨迹方法（比如LDM、EDM和ADM）测试这一生成方法发现：

虽然以前的RF方法在少步采样方案中表现出不错的性能，但它们的相对性能随着步数的增加而下降。

相比之下，SD3重新加权的RF变体可以不断提高性能。

模型能力还可进一步提高

官方使用重新加权的RF方法和MMDiT架构对文本到图像的生成进行了规模化研究（scaling study）。

训练的模型范围从15个具有4.5亿参数的模块到38个具有80亿参数的模块。

从中他们观察到：随着模型大小和训练步骤的增加，验证损失呈现出平滑的下降趋势，即模型通过不断学习适应了更为复杂的数据。

为了测试这是否在模型输出上转化为更有意义的改进，官方还评估了自动图像对齐指标（GenEval）以及人类偏好评分（ELO）。

结果是：

两者有很强的相关性。即验证损失可以作为一个很有力的指标，预测整体模型表现。

此外，由于这里的扩展趋势没有出现饱和迹象（即即随着模型规模的增加，性能仍在提升，没有达到极限），官方很乐观地表示：

未来的SD3性能还能继续提高。

最后，技术报告还提到了文本编码器的问题：

通过移除用于推理的47亿参数、内存密集型T5文本编码器，SD3的内存需求可以显著降低，但同时，性能损失很小（win rate从50%降到46%）。

不过，为了文字渲染能力，官方还是建议不要去掉T5，因为没有它，文本表示的win rate将跌至38%。

那么总结一下就是说：SD3的3个文本编码器中，T5在生成带文本图像（以及高度详细的场景描述图）时贡献是最大的。

网友：开源承诺如期兑现，感恩

SD3报告一出，不少网友就表示：

Stability AI对开源的承诺如期而至很是欣慰，希望他们能够继续保持并长久运营下去。

还有人就差报OpenAI大名了：

更加值得欣慰的是，有人在评论区提到：

SD3模型的权重全部都可以下载，目前规划的是8亿参数、20亿参数和80亿参数。

速度怎么样？

咳咳，技术报告有提：

80亿的SD3在24GB的RTX 4090上需要34s才能生成1024*1024的图像（采样步骤50个）——不过这只是早期未经优化的初步推理测试结果。

报告全文：

https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

参考链接：

[1]https://stability.ai/news/stable-diffusion-3-research-paper

[2]https://news.ycombinator.com/item?id=39599958

在这个信息爆炸的时代，视频已经成为我们获取信息和娱乐的重要方式。无论是YouTube上的短视频，还是社交媒体上的直播，字幕的作用都显得尤为重要。添加字幕不仅能帮助听障人士理解视频内容，还能吸引更多的观众。今天，我们就来聊聊视频怎么添加字幕，让你的作品更加易于理解和传播。说到添加字幕，首先要明确的是字幕的类型。

新报观察 2024-12-28

Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

微调DiT，提升文本渲染能力

重新加权流技术，不断提升性能

模型能力还可进一步提高

网友：开源承诺如期兑现，感恩

推荐体验

相关资讯

Stable Diffusion 3震撼发布！模型与Sora同架构

Stable Diffusion 3 惊艳亮相，还与 Sora 是同架构，生成图像真假难辨！

Stable Diffusion 3论文终于发布，架构细节大揭秘，对复现Sora有帮助？

Stable Diffusion 3突然发布！与Sora同架构，一切都更逼真了

Stable Diffusion 3深夜横空出世，模型与Sora同架构，也能「理解」物理世界

近期资讯

充分利用微信：提升生活质量的多功能指南与社交技巧分享

古井贡酒获得实用新型专利授权：“一种方形玻璃瓶罐抓瓶机构”

轻松掌握Photoshop笔刷安装与使用技巧，提升设计效果！

磁力在日常生活中的多种实用应用与便利性探索

太钢不锈获得发明专利授权：“一种发动机高压共轨用不锈钢精炼的方法”

盟固利获得发明专利授权：“一种固态锂离子电池用复合隔膜及其制备方法和固态锂离子电池”

初次使用苹果手机的开机与基本功能指南，助你轻松上手！

宏昌科技获得实用新型专利授权：“一种结构简单的减压阀”

天汽模获得发明专利授权：“一种模具上、下模气路连通装置”

如何为视频添加字幕以提升观众体验与传播效果

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响