这个中国团队，发起了一个Open-Sora计划

作者：证券时报发布时间：2024-03-12

复现Sora视频生成模型，是当前很多大模型技术和创业团队想要实现的任务。而一支来自中国的团队，正在召集来自全世界的“同盟”和“友军”，试图集结大家的力量，加速这一目标的实现。

3月12日下午，北京大学深圳研究生院—兔展智能AIGC联合实验室（以下简称“联合实验室”）在深圳举行了Open-Sora开源计划说明会。据介绍，Open-Sora开源计划旨在通过开源社区的力量复现Sora‍模型。由于资源有限，团队目前仅搭建了基础架构，还无法进行完整训练，希望通过开源社区逐步增加模块并筹集资源进行训练。

据联合实验室介绍，Sora模型发布以后，团队就在全球知名开源社区Github上发布了Open-Sora计划，吸引了国际广泛关注和转发，来自德国、伊朗、澳大利亚、新加坡等不同国家的技术大咖都纷纷积极参与和贡献，已获得14万的访问量，5000余名程序员给这个项目点“星”。

“技术是无国界的，我们想做的就是开源，让大家一起参与，共享和使用Open-Sora计划的成果。”联合实验室副主任、北京大学信息工程学院助理教授博士生导师袁粒在说明会上表示。

面对CloseAI，开源社区选择团结起来

今年2月16日，OpenAI发布了首个文生视频模型Sora。用户可以通过输入自然语言提示词，生成长达1分钟的视频。视频不仅包括高度清晰的场景、复杂的镜头动作，还可以可支持多个角色的创作，效果流畅逼真，保持着高度的一致性。

在东京街头自在行走的女子、雪地上打滚嬉戏的小狗、暗夜里对着月亮长嚎的狼群……OpenAI在官网中放出的48个视频样片效果超越了Runway、Pika等AI视频创业公司，展现了Sora模型的强大，引发全球科技圈的广泛关注。

然而，由于OpenAI选择了闭源Sora，后续发布的技术报告也并未透露模型训练的细节，因此没有人知道这些强大的效果是如何实现的。近期，马斯克与OpenAI陷入了诉讼纠纷。双方的主要矛盾点，就是OpenAI从最初选择开源的非营利性组织转向了闭源路线的、带有明显商业化目标的公司。这也让生成式人工智能的开源与闭源路线之争再度打响。

“OpenAI原本的使命是用开放的人工智能造福人类社会，但如今无论是ChatGPT还是Sora，都已经闭源，变成了Close AI、Close Sora。”兔展智能创始人兼CEO董少灵在接受证券时报记者采访时表示，联合实验室发起Open-Sora计划，并已初步搭建起了一个有效可行的技术框架，且完全开源。此举正是希望为全球提供另外一个选项，传递一种信心。“中国的机构是有能力搭建起底层技术框架的。我们在技术上不落后，在路径上非常有希望，希望更多人参与到计划中来，并从中受益。”董少灵说。

在说明会现场，袁粒作为计划发起人之一，介绍了Open-Sora开源计划的技术逻辑和发起这一计划的目标。袁粒表示，Open-Sora计划希望聚集开源社区力量复现出一版开源的TinySora（小Sora）。实现这一目标分为三个阶段，目前团队已经搭建起了由三部分组成的Open-Sora底层框架，并初步验证了当前框架的有效性，基本实现了第一阶段的目标。

在第二阶段，联合实验室希望在有效框架基础上训练更多数据和更大算力，训练出生成20秒以上，清晰度为720P的模型；第三阶段，希望能拓展生成的泛化性、场景的多样性，更加逼近Sora的时长和效果。“不过，第三阶段难度较大，算力缺口也很大，数据要求极高，所以仅作为Open-Sora计划的拓展目标。”袁粒表示。

袁粒在接受证券时报记者采访时表示，通过发布Open-Sora计划，希望得到的开源社区支持主要有三方面：一是算法优化，凝聚开源社区中全球算法工程师的力量，群策群力，共同优化模型框架和代码；二是算力支持，要实现第二阶段的目标，目前芯片缺口在数百卡级，显卡缺口预计百卡左右，需要集合开源社区的算力资源；三是数据支持，希望吸引产业方贡献一些私有数据，促进模型的优化。

据介绍，Open-Sora计划由北京大学深圳研究生院—兔展智能AIGC联合实验室发起。该实验室是北京大学和行业领军企业在深圳做出领先的科创机制，聚合了兔展智能充沛算力支持、海量数据资产、优秀研发团队等优势，结合北京大学顶尖的科研力量和长期积累的技术积淀，打造科研与产业深度供应的新范式。

“我们不想做抖音，我们想赋能中国产业升级”

Sora视频生成模型发布后，业界普遍认为这一工具将对短视频、广告、影视等行业带来直接冲击。大家对Sora的讨论，也更多集中在视频生成领域。

在董少灵看来，虽然Sora模型表面上是一个文生视频工具，但视觉大模型的终极目标，绝对不是为了生成娱乐用途的视频。“我们不想做抖音，因为这条路走到极限也只是‘抖音下一代’，让每个人都可以低成本生成高质量的视频而已。这不是我们的所思所想，我们希望深植中国产业，赋能中国产业升级。”董少灵说。

董少灵创办的兔展智能，是国内最早的H5零代码编辑平台之一，目前已发展成中国生成式AI内容引擎与营销云核心平台，正积极推动新一代AI能力应用到AI生成文案、AI生成素材、AI推荐产品库等营销场景中。

今年的全国两会上，政府工作报告首次提出了开展“人工智能+”行动，董少灵对此也有自己的思考。他告诉记者，视觉大模型如何跟中国产业深度结合、发挥价值，让产业供给与用户需求更精准地匹配，这是兔展智能做视觉大模型的方向与目标。据介绍，公司自主研发的“兔灵”视觉大模型以图像视觉为核心，能够作为一种AI设计工具，让产品变得更加符合消费者的个性化需求，促进供给端与消费端更良性的循环。

举例而言，“兔灵”视觉大模型可深度赋能室内设计，带动下游产业发展。在室内设计的传统流程中，每页方案约3000元，物料设计价格为500元/个。经AI优化以后，只需要向大模型输入想要的设计风格文字，比如“一个现代风格的客厅，整个空间采用中性色调，搭配自然的木质元素和石材纹理，营造出简洁而温馨的氛围。”大模型即可生成相关的AI效果图，还可以自动推荐效果图中的匹配物料，将每页方案成本降低为100元，并省去物料设计费用。

据介绍，兔展智能目前已经与郑中设计在室内设计装修领域展开合作。郑中设计的高价值数据能够助力优化室内设计专用的AI生图模型，提高概念设计图生产效率。同时还打通了下游建材企业的物料库，实现了AI自动匹配装修建材。“中国有强劲的制造能力和庞大的产业链。以家居建材为例，我们希望用AI让每一个普通人都能自己无限次地设计自己的房子，并打通家居建材产业链，为用户提供数字化推荐，真正跳过中间商。”董少灵说。

事实上，不仅是室内设计，建筑设计、园林设计、电商营销设计、印刷设计等多个领域，都有视觉大模型的用武之地，也是兔展智能正在深耕的领域。董少灵告诉记者，Sora本质是一个视频大模型，“兔灵”大模型也是一个集理解与生成为一体的视觉大模型，“在整个模型底座上，我认为很早前我们走的路线就与Sora展现出来的路线一样，底层框架是相似的。只是我们选择将先进的架构用于把图片、3D等领域做好，因为它们能应用于生产制造，赋能产业发展。”

董少灵说，Sora向大家展示出来的能力是文生视频，但它不只有这个能力，Open-Sora计划背后的模型也不只有这个能力。他进一步解释，Sora的真正价值是证明视觉模型大模型这条路“行得通”，能够让人工智能在视觉方向上做很多事，但它所展示出来的文生视频只是视频大模型的其中一项功能，还有其他领域的应用。“而我们更看重的是结合产业应用，赋能产业升级。”董少灵说。

责编：叶舒筠

校对：冉燕青

这个中国团队，发起了一个Open-Sora计划

推荐体验

相关资讯

Open-Sora计划已开源

【原创】开源版的Sora是什么样？北大深研院联合兔展智能发起“Open-Sora”计划

Open-Sora 单机部署教程

兔展智能与北京大学团队最新成果Open-Sora计划在深首发

开源！国产Open-Sora模型发布

近期资讯

专访南大胡翼青：技术击碎共识之后，传播还有连通的可能吗？

“别逗了，连人的问题都没解决，AI谈何发展？”

2024中国智能AR眼镜十大关键词发布

浙江温州杀出超级IPO：年入5.53亿，市占率超7%

三场与AI有关的死亡

手机影像的2024：九大技术趋势下，安卓全面碾压iPhone

通义赶“末班车”

昔日明星企业破产，碳化硅市场出清加速

2024财富缩水最多的5位亿万富豪，1位来自中国

“中国英伟达”猝死于2024

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响