【原创】开源版的Sora是什么样？北大深研院联合兔展智能发起“Open-Sora”计划

作者：读创发布时间：2024-03-13

深圳商报·读创客户端记者张郗郡

今年初，由OpenAI发布的文生视频大模型Sora如一起平地惊雷震惊了世界。仅需输入文字指令，便可生成长达一分钟、高清分辨率、画面精致的动态视频，Sora优异的性能表现让许多人将它的问世视为“视频行业的GPT时刻”，但同时，关于国内人工智能技术发展状况的担忧也不可避免地被提及。

国内能否研发出中文版的Sora？3月12日，北京大学深圳研究生院-兔展智能AIGC联合实验室正式发布了“Open-Sora”计划，旨在复现一个“开源版的Sora”。该项目由深圳兔展智能创始人、CEO董少灵与北京大学信息工程学院助理教授、博士生导师袁粒领衔发起，期望通过产业公司和科研机构的强强联手，以开源的方式对外传播中国团队的技术自信，号召全球社区一起做人类普惠的技术内容。

复现“开源版的Sora”

不久前，马斯克对OpenAI提起了诉讼，指控OpenAI背离了创立之初的初衷，从一个开源的非盈利组织转变为闭源、追求商业利益的机构。截至目前，发布近一个月的Sora还尚未面向全部公众开放，在其官方网站上也只有一份非常简短的技术报告，并未涉及模型背后的原理——在兔展智能创始人、CEO董少灵看来，“OpenAI”正逐渐变成“CloseAI”。

“与之恰恰相反，我们Open-Sora Plan中的数据是完全开源的，全世界范围内的用户都可以直接拿去用，甚至利用它们来盈利。”作为技术模块的主要负责人，袁粒在发布现场向记者表示。据袁粒介绍，Open-Sora计划的核心技术框架包括视频编码器与解码器、Diffusion Transformer模型和条件注入模型三大模块，目前基于已经搭好的训练框架，能够支持动态输入、多尺度、多分辨率的训练，对于可变比例、可变时长的视频已经取得了较好的生成效果。

袁粒正在进行技术讲解

与“财大气粗”的OpenAI相比，该团队在条件和算力存在一定缺口的情况下选择了更高效、低功耗的大模型训练方式，例如用“2D+1D Diffusion Transformer”替代计算量更大的3D Diffusion Transformer，以及同步推进除了文本控制外的更多条件控制的视频生成训练。

该项目在GitHub上一经发布，就立马引起国际人工智能界相当一部分的关注。发布一周内就有超5000名技术开发人员为该项目标星，融合了30余次开源创作者的拉取请求（Pull Request），获得14万余次访问，代码被克隆超800次，来自美国、英国、加拿大、德国、澳大利亚、迪拜、沙特阿拉伯、伊朗等多个国家的技术人员参与其中，积极贡献。

在袁粒看来，“Open-Sora”作为一个开源的项目，其优势在于能够集结全世界技术人员的力量，让大家在自己擅长的领域发挥专业优势，同时也能够获得算力和数据方面的资源支持。目前，该计划“初步验证当前框架有效性”的第一阶段目标已完成，第二阶段团队希望在有效框架基础上训练出能够生成20秒以上，720p清晰度视频的模型，同时将“生成更加逼近Sora时长和效果的视频”作为第三阶段的拓展目标。

尽管目前由于较大的算力缺口和数据要求，能够实现拓展目标的难度较大，但董少灵依然表示：“在技术方面中国并不比Sora弱，Sora能做的我们也能做，大家要树立这样的自信。”

AI技术应赋能产业

Open-Sora背后的底层模型，是兔展智能在去年推出的基于视觉为核心的原创多模态大模型“兔灵”，这是一个视觉占7成、语言占3成的全新混合体。同作为视觉大模型，目前外界对Sora的想象止步于娱乐向视频的生产，但兔展智能对于Open-Sora的展望却远不止于此，对董少灵来说，将Open-Sora背后的底层模型打造成深植于产业、赋能产业发展的中国本土的视觉大模型，让产业的供给与用户的需求更精准的匹配，才是更有价值的事情。

董少灵在进行讲解

在董少灵的介绍里，“兔灵”是一个聚焦于设计领域的视觉大模型，能够根植于工业设计、建筑设计、室内设计、服装设计等多个设计类细分行业，在供给大于需求的时代让客户的个性化需求更加精准，同时节约设计成本、打通产业链，实现真正的“人工智能+”赋能行业。

发布现场，董少灵对目前大模型已经落地的项目进行了展示。其中在建筑设计方面，“兔灵”能够通过文本描述引导生成三维建筑模型，自由调整建筑视角，并结合AI局部重绘的能力补全设计效果图，这样一来实现方案设计及效果图制作提效97%，成本节约达14.6%。

兔灵大模型操作演示

“我们想做的绝不是‘下一代的抖音’，而是希望能将AI真正应用到行业中，更加精准地匹配产业链中的供给与需求。”董少灵向记者表示。在他的展望中，随着Open-Sora计划的不断发展，“兔灵”大模型也将不断获得训练，未来，不具备设计专业技能的普通人也能够设计出个性化的物品，随之而来的是建筑、服装、材料等各个行业产能的提高与产业链的完善。

本次Open-Sora开源计划由兔展智能联合北京大学深圳研究生院共同成立的AIGC联合实验室发起，坚持“人类级使命”、“奋斗者为本”、“开放式创新”、“真问题驱动”四大原则，共同探索产学研协同创新发展的新路径。未来，双方也将在推动视觉大模型更好赋能中国产业发展方面携手并进，为世界带来更多中国声音。

【原创】开源版的Sora是什么样？北大深研院联合兔展智能发起“Open-Sora”计划

推荐体验

相关资讯

兔展智能与北京大学团队最新成果Open-Sora计划在深首发

北大深圳研究生院联合兔展智能“复现”国版Sora

Open-Sora计划已开源

这个中国团队，发起了一个Open-Sora计划

开源！国产Open-Sora模型发布

近期资讯

如何轻松设置电脑自动关机，提升工作与生活效率的实用指南

山西绿建智造取得中空玻璃加工用磨削加工机专利，避免玻璃破碎

如何轻松设置QQ聊天背景，提升个性化聊天体验

如何轻松查看电脑主板型号的多种方法与技巧

四川省鑫鼎顺玻璃取得双向打磨玻璃装置专利，具有打磨效果好且工作效率高的优点

四川佛能达取得防火玻璃生产用倒角机专利，方便对不同防火玻璃倒角过程中的限位工作

南通向阳光学元件取得半自动光学玻璃的侧边加工机专利，方便对光学玻璃调整方向

如何轻松设置Windows 10的锁屏时间，提升使用体验与安全性

晶安玻璃取得玻璃磨边机辅助组件专利，减少玻璃加工的时间

如何轻松找回忘记的ID密码及提升账号安全性的方法

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响