Sora复现！全球首个类Sora模型开源！文生视频最火方案公开！

作者：AI-GitHub发布时间：2024-03-19

近日，Colossal-AI团队开源了全球首个类Sora架构视频生成模型「Open-Sora 1.0」。本次开源的内容涵盖了整个训练流程，包括数据处理、训练细节和模型权重。开源仅两天，已在GitHub上斩获7k星！

该项目支持完整的视频数据预处理、加速训练、推理等，只需 3 天的培训即可制作 2 秒 512x512 视频。

让我们先来一起看看Open-Sora生成的视频效果吧！

夜晚熙熙攘攘的城市街道，充满了汽车大灯的光芒和路灯的环境光。

生机勃勃的向日葵田。花朵整齐地排列，营造出一种秩序感和对称感。

森林地区宁静的夜景。捕捉了从白天到黑夜的过渡，湖泊和森林是恒定的背景。

目前看来，与sora仍存在不小的差距，但万事开头难。

Open-Sora计划希望聚集开源社区力量复现出一版开源的TinySora（小Sora）。实现这一目标分为三个阶段，目前团队已经搭建起了由三部分组成的Open-Sora底层框架，并初步验证了当前框架的有效性，基本实现了第一阶段的目标。

Colossal-AI团队是如何完成Sora复现方案的呢？

首先，Open-Sora模型尝试了目前火热的Diffusion Transformer（DiT）架构。

在训练阶段，Open-Sora模型首先采用预训练好的Variational Autoencoder（VAE）的编码器将视频数据进行压缩，然后在压缩之后的潜在空间中与文本嵌入（text embedding）一起训练STDiT扩散模型。

在推理阶段，从VAE的潜在空间中随机采样出一个高斯噪声，与提示词嵌入（prompt embedding）一起输入到STDiT中，得到去噪之后的特征，最后输入到VAE的解码器，解码得到视频。

其次，Colossal-AI团队借鉴了Stable Video Diffusion（SVD）的工作，从图像扩散模型到视频扩散模型，将复现过程分为了三个阶段：大规模图像预训练、大规模视频预训练以及高质量视频数据微调训练。

每个阶段的训练都是在前一阶段的权重基础上继续进行。与从零开始的单阶段训练相比，多阶段训练通过逐步扩大数据规模，更高效地实现了高质量视频生成的目标。成功地降低了视频预训练的成本，并显著提高了生成视频的质量。这种多阶段训练的方法不仅使得模型的泛化能力得到了增强，还使得视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的扩展变得更为高效。

最后，Colossal-AI团队还完成了便捷的视频数据预处理脚本，显著降低了启动Sora复现项目的技术门槛和前期准备。

Colossal-AI团队在代码仓库中公开了视频数据集下载，长视频根据镜头连续性分割为短视频片段，使用开源大语言模型LLaVA 生成精细的提示词等一系列内容，让大家可以轻松启动Sora复现预训练。