近日,科技界再掀热潮,继OpenAI Sora以超凡的视频生成能力引发全球瞩目后,Colossal-AI团队再度抛出重量级炸弹——正式对外全面开放「Open-Sora 1.0」模型参数和所有训练细节。
这一举措不仅拉低了前沿视频生成技术门槛,更为全球AI爱好者打开了通向创新视频创作的大门。在两周前成本直降46%的Sora训练推理复现流程基础上,Open-Sora 1.0犹如一场技术革命,倾囊分享包括数据处理、详尽的训练步骤、核心模型权重在内的全部“秘密配方”。
Open-Sora 1.0 生成的都市繁华掠影Open-Sora 1.0模型以其独具匠心的设计惊艳亮相,其核心技术架构采用当下备受瞩目的Diffusion Transformer (DiT)架构,并在此之上创造性地叠加时间注意力层,将图像生成扩展至视频领域。值得关注的是,STDiT(Spatial Temporal Diffusion Transformer)模型结构巧妙利用预训练好的VAE与文本编码器协同工作,通过空间-时间注意力机制,既保证了视频生成质量,又大大降低了计算开销。
STDiT结构示意图令人欣喜的是,Colossal-AI团队已将Open-Sora整个训练流程及其背后的技术详解,以及实战案例和上手教程等宝贵资源一并免费公开于GitHub平台。
模型的训练流程无论你是科研学者还是技术发烧友,均可借此机会深入探索视频生成技术的神秘世界。Open-Sora复现方案的解析犹如一幅精美的画卷逐步展开。该方案借鉴了Stable Video Diffusion (SVD)的研究成果,采用三阶段递进式训练策略,依次为大规模图像预训练、大规模视频预训练及高质量视频数据微调。
训练方案三阶段
每一阶段都如接力赛般传承前阶段的优质权重,步步为营,最终实现了视频生成效果的显著提升。Colossal-AI团队为简化Sora模型的复现工作,开发了一套高度实用的数据预处理方案,并将其整合至代码库中。
基于数据预处理脚本自动生成的视频/文本对这套脚本不仅支持自动下载公开视频数据集,还能基于镜头连续性智能分割长视频为短视频片段,极大地便利了研究人员启动Sora预训练流程。此外,团队利用开源大语言模型LLaVA生成高质量提示词以增强视频内容描述。在实际应用中,Open-Sora展示了强大的视频生成能力,均能轻松应对,精彩呈现。无论是悬崖海岸边波涛汹涌的航拍场景
还是山川瀑布磅礴壮观的鸟瞰画面
甚至水下世界悠游自在的海龟镜头
或是星河闪烁的延时摄影之美
尽管目前版本仅使用了400K训练数据,存在一定的生成瑕疵,例如乌龟多了只脚的趣事,但Colossal-AI团队并未因此止步。他们坦诚公布待解决的问题清单,并承诺将持续优化模型性能,着力提高生成质量和对文本描述的精准度。高效训练方面,Colossal-AI团队还提供了自家研发的加速系统,借助算子优化和混合并行等高级策略,让Open-Sora在处理高分辨率长视频任务时实现近1.55倍的惊人加速效果。
而STDiT模型本身更是在长序列视频处理上展现出无可比拟的优势,相较于全注意力机制下的DiT,帧数增加时速度提升可达5倍之多。(插入相关图片展示)
最后,随着更多视频训练数据的加入,未来的Open-Sora有望突破现有边界,生成更高质量、更长时长、多种分辨率的视频内容,真正赋能电影制作、游戏开发、广告创意等诸多行业,共同谱写AI视频生成的新篇章。
敬请期待Open-Sora的未来进化,携手共创人工智能在视觉艺术领域的壮丽新纪元!Github:https://github.com/hpcaitech/Open-Sora