近日,Colossal-AI团队开源了全球首个类Sora架构视频生成模型「Open-Sora 1.0」。本次开源的内容涵盖了整个训练流程,包括数据处理、训练细节和模型权重。开源仅两天,已在GitHub上斩获7k星!
该项目支持完整的视频数据预处理、加速训练、推理等,只需 3 天的培训即可制作 2 秒 512x512 视频。
让我们先来一起看看Open-Sora生成的视频效果吧!
夜晚熙熙攘攘的城市街道,充满了汽车大灯的光芒和路灯的环境光。
生机勃勃的向日葵田。花朵整齐地排列,营造出一种秩序感和对称感。
森林地区宁静的夜景。捕捉了从白天到黑夜的过渡,湖泊和森林是恒定的背景。
目前看来,与sora仍存在不小的差距,但万事开头难。
Open-Sora计划希望聚集开源社区力量复现出一版开源的TinySora(小Sora)。实现这一目标分为三个阶段,目前团队已经搭建起了由三部分组成的Open-Sora底层框架,并初步验证了当前框架的有效性,基本实现了第一阶段的目标。
Colossal-AI团队是如何完成Sora复现方案的呢?
首先,Open-Sora模型尝试了目前火热的Diffusion Transformer(DiT)架构。
在训练阶段,Open-Sora模型首先采用预训练好的Variational Autoencoder(VAE)的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本嵌入(text embedding)一起训练STDiT扩散模型。
在推理阶段,从VAE的潜在空间中随机采样出一个高斯噪声,与提示词嵌入(prompt embedding)一起输入到STDiT中,得到去噪之后的特征,最后输入到VAE的解码器,解码得到视频。
其次,Colossal-AI团队借鉴了Stable Video Diffusion(SVD)的工作,从图像扩散模型到视频扩散模型,将复现过程分为了三个阶段:大规模图像预训练、大规模视频预训练以及高质量视频数据微调训练。
每个阶段的训练都是在前一阶段的权重基础上继续进行。与从零开始的单阶段训练相比,多阶段训练通过逐步扩大数据规模,更高效地实现了高质量视频生成的目标。成功地降低了视频预训练的成本,并显著提高了生成视频的质量。这种多阶段训练的方法不仅使得模型的泛化能力得到了增强,还使得视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的扩展变得更为高效。
最后,Colossal-AI团队还完成了便捷的视频数据预处理脚本,显著降低了启动Sora复现项目的技术门槛和前期准备。
Colossal-AI团队在代码仓库中公开了视频数据集下载,长视频根据镜头连续性分割为短视频片段,使用开源大语言模型LLaVA 生成精细的提示词等一系列内容,让大家可以轻松启动Sora复现预训练。
值得一提的是,Colossal-AI团队在复现过程中,通过合理的硬件资源配置和成本控制,成功地将Open-Sora复现过程的成本控制在约10000美元,这对于许多研究者和爱好者来说是一个相对可承受的成本。
如果你还有更多视频生成的有趣想法,可以访问Open-Sora开源社区获取模型权重进行免费的体验。
开源地址:https://github.com/hpcaitech/Open-Sora
目前,Open-Sora仍处于早期阶段,正在积极开发中。Colossal-AI团队还在Github上列举了一系列待做规划,旨在不断解决现有缺陷,提升生成质量。
Open-Sora 1.0开源项目的推出,不仅让全球AI爱好者能够接触到前沿的技术,还为他们提供了一个共同学习和探索的平台。通过Open-Sora 1.0,用户可以深入了解视频生成的整个过程,从数据处理到模型训练,再到最终的视频生成,都有详尽免费的文档作为指导。
正如Colossal-AI团队所说,通过Open-Sora,我们的目标是激发内容创作领域的创新、创造力和包容性。携手全球AI热爱者共同推进视频创作的新纪元。