开源！国产Open-Sora模型发布

作者：晓得智能发布时间：2024-03-18

近日，科技界再掀热潮，继OpenAI Sora以超凡的视频生成能力引发全球瞩目后，Colossal-AI团队再度抛出重量级炸弹——正式对外全面开放「Open-Sora 1.0」模型参数和所有训练细节。

这一举措不仅拉低了前沿视频生成技术门槛，更为全球AI爱好者打开了通向创新视频创作的大门。在两周前成本直降46%的Sora训练推理复现流程基础上，Open-Sora 1.0犹如一场技术革命，倾囊分享包括数据处理、详尽的训练步骤、核心模型权重在内的全部“秘密配方”。

Open-Sora 1.0 生成的都市繁华掠影Open-Sora 1.0模型以其独具匠心的设计惊艳亮相，其核心技术架构采用当下备受瞩目的Diffusion Transformer (DiT)架构，并在此之上创造性地叠加时间注意力层，将图像生成扩展至视频领域。值得关注的是，STDiT（Spatial Temporal Diffusion Transformer）模型结构巧妙利用预训练好的VAE与文本编码器协同工作，通过空间-时间注意力机制，既保证了视频生成质量，又大大降低了计算开销。

STDiT结构示意图令人欣喜的是，Colossal-AI团队已将Open-Sora整个训练流程及其背后的技术详解，以及实战案例和上手教程等宝贵资源一并免费公开于GitHub平台。

模型的训练流程无论你是科研学者还是技术发烧友，均可借此机会深入探索视频生成技术的神秘世界。Open-Sora复现方案的解析犹如一幅精美的画卷逐步展开。该方案借鉴了Stable Video Diffusion (SVD)的研究成果，采用三阶段递进式训练策略，依次为大规模图像预训练、大规模视频预训练及高质量视频数据微调。

训练方案三阶段

每一阶段都如接力赛般传承前阶段的优质权重，步步为营，最终实现了视频生成效果的显著提升。Colossal-AI团队为简化Sora模型的复现工作，开发了一套高度实用的数据预处理方案，并将其整合至代码库中。

基于数据预处理脚本自动生成的视频/文本对这套脚本不仅支持自动下载公开视频数据集，还能基于镜头连续性智能分割长视频为短视频片段，极大地便利了研究人员启动Sora预训练流程。此外，团队利用开源大语言模型LLaVA生成高质量提示词以增强视频内容描述。在实际应用中，Open-Sora展示了强大的视频生成能力，均能轻松应对，精彩呈现。无论是悬崖海岸边波涛汹涌的航拍场景

还是山川瀑布磅礴壮观的鸟瞰画面

甚至水下世界悠游自在的海龟镜头

或是星河闪烁的延时摄影之美

尽管目前版本仅使用了400K训练数据，存在一定的生成瑕疵，例如乌龟多了只脚的趣事，但Colossal-AI团队并未因此止步。他们坦诚公布待解决的问题清单，并承诺将持续优化模型性能，着力提高生成质量和对文本描述的精准度。高效训练方面，Colossal-AI团队还提供了自家研发的加速系统，借助算子优化和混合并行等高级策略，让Open-Sora在处理高分辨率长视频任务时实现近1.55倍的惊人加速效果。

而STDiT模型本身更是在长序列视频处理上展现出无可比拟的优势，相较于全注意力机制下的DiT，帧数增加时速度提升可达5倍之多。（插入相关图片展示）

最后，随着更多视频训练数据的加入，未来的Open-Sora有望突破现有边界，生成更高质量、更长时长、多种分辨率的视频内容，真正赋能电影制作、游戏开发、广告创意等诸多行业，共同谱写AI视频生成的新篇章。

敬请期待Open-Sora的未来进化，携手共创人工智能在视觉艺术领域的壮丽新纪元！Github：https://github.com/hpcaitech/Open-Sora

开源！国产Open-Sora模型发布

推荐体验

相关资讯

Open-Sora计划已开源

不用再等 OpenAI ，全球首个 Open-Sora 全面开源！

没等来OpenAI，等来了Open-Sora全面开源

Open-Sora 单机部署教程

开源日报 | 微软AI程序员登场，马斯克开源Grok；Open-Sora全面开源

近期资讯

佰维存储获得发明专利授权：“封装结构散热优化方法、装置、可读存储介质及电子设备”

上纬新材获得实用新型专利授权：“试样对中装置”

如何轻松查找自己电脑的IP地址：多种方法详解与注意事项

华帝股份获得实用新型专利授权：“一种电热水器的挂架”

瑞纳智能获得外观设计专利授权：“控制网关”

如何顺利安装和配置CAD软件，提升设计效率与技能

如何高效管理邮箱：使用技巧与安全建议的全面指南

如何高效创建和管理微信群聊的实用指南与技巧分享

中航光电获得实用新型专利授权：“一种带倾角的PCB连接器及连接器组件”

如何选择适合自己的键盘：关键因素与实用建议解析

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响