袁粒(受访者供图)
开启盲盒
●Sora在全球范围内引起巨大轰动,却选择了闭源之路。当“Open AI变成了Closed AI”,Sora能否被复现,露出背后的技术神秘面纱?
●北京大学深圳研究生院信息工程学院博雅特聘教授田永鸿和助理教授袁粒的团队,开启了Sora复现的探索之旅,并很快出现了第一个阶段性成果——Open Sora Plan v1.0.0
●目前,这个项目已经获得了超过1万的标星,成为了全球人工智能爱好者关注的焦点
深圳商报首席记者 袁静娴
2024年2月,美国Open AI公司推出的Sora人工智能大模型犹如一颗重磅炸弹,在全球范围内引起巨大轰动。这个被称为“可能电影工业要被颠覆”的模型,实现了从单一文本模态向多模态的跨越,其生成的视频画质精良逼真,在视频长度、质量以及可控性等方面均达到了当前技术的最高水平。然而,Sora却选择了闭源之路,这让全世界的人工智能研究者们既惊叹又无奈。
当“Open AI变成了Closed AI”,Sora能否被复现,露出背后的技术神秘面纱?这一技术挑战率先在北京大学深圳研究生院发起。今年3月初,北京大学深圳研究生院信息工程学院博雅特聘教授田永鸿和助理教授袁粒,毅然决定带领学生团队与兔展智能公司“开盲盒”,即启动Sora复现计划——Open Sora Plan。
“Open Sora Plan从一开始推出的初心就是集结开源的力量。”在田永鸿和袁粒的带领下,团队迅速行动起来,与来自世界各地的代码爱好者们一起,在GitHub开源社区上开启了Sora复现的探索之旅,并很快出现了第一个阶段性成果——Open Sora Plan v1.0.0,显著增强了视频生成的质量以及对文本的控制能力。目前,这个项目已经获得了超过1万的标星,成为了全球人工智能爱好者关注的焦点。
复现Sora:图生视频迎来重大更新迭代
近日,袁粒在朋友圈发了一个《黑神话·悟空》第三结局的67秒预览视频:天命人选择不带金箍,同时要为芸芸众生向诸神讨一个公道,并解救了自己的心上人四妹。视频画面精美,与原游戏画风一致,玩家乍一看以为是新的隐藏结局。但事实上,这是由Open Sora plan生成的创作视频,而非《黑神话·悟空》官方发布。
这背后是图生视频架构的又一次重大更新迭代。袁粒告诉记者,自今年4月Open Sora Plan v1.0.0问世,截至目前,Open Sora Plan已经迎来了4次更新,1.0版本也升级到了1.3版本,数据集、训练的规模都越来越大,图生视频能力越来越强。
Open Sora Plan项目的框架由Video VQ-VAE(视频量化变分自动编码器)、Denoising Diffusion Transformer(扩散变换器模型)和Condition Encoder(条件编码器)三个部分组成。袁粒介绍,过去几个月来,团队在可变长宽比、可变分辨率、可变时长上不断进行批量训练。
例如,对于可变长宽比,团队实施了一种动态掩码策略,能在并行批量训练的同时保持灵活的长宽比;对于可变分辨率,在推理过程中,虽然在固定的256×256分辨率上进行训练,但通过位置插值可以实现可变分辨率采样;对于可变时长,团队使用Video GPT中的Video VQ-VAE,将视频压缩至潜在空间,并且支持变时长生成。
在一系列训练工作不断推进后,Open Sora Plan项目生成的视频也从一开始的几秒到十几秒,再到如今的几十秒,视频越来越长,画面越来越真实、清晰。
集结开源:从“0”到“1”突破
“Open Sora Plan项目的成功,与团队一直秉持开放合作的精神密不可分。”袁粒表示,项目组从一开始就明确了集结开源力量的初心,旨在通过全球开发者的共同努力,推动视频生成技术的发展。
为了让更多的人能够参与到项目中来,在开源社区中,团队成员设计了一整套上传指南,Open Sora Plan项目全面展示了框架图和实现细节,为全球开发者提供了一个深入了解视频生成技术的平台,吸引了全球众多开发者的关注和参与。在这种聚沙成塔的方式下,团队不断完善模型框架和细节,为实现更高质量的视频生成奠定了坚实的基础。
训练大模型的背后,高质量的算力和数据极为重要。据袁粒介绍,Open Sora Plan团队陆续得到了华为昇腾和鹏城云脑的支持,人工智能算力国产化的实践也在这个项目上日臻成熟。
目前,该项目已支持国产AI芯片(华为昇腾910b)进行推理,并计划下一步支持国产算力训练。
在训练数据的获得方面,他说:“目前开源数据和部分合作伙伴提供的闭源数据都在训练中,为了推动技术突破的初心把这些‘知识共产主义者’聚在一起,每个人都期待着‘从0到1’的突破,这也成为了推动我们团队夜以继日进行攻关的原动力。”
年轻活力:一支平均年龄23岁的团队
项目之所以能在短期内快速产出高质量的项目成果,离不开一支年轻、活力和极具创新性的团队。
23岁,是这支团队的平均年龄。团队的带头人袁粒是院内有名的“90”后年轻教师,出生于1994年,科研成果颇丰。2023年,他曾带领学生团队设计出爆款项目Chat Excel,将复杂的表格操作简化为日常聊天般的人机交互,极大地减轻了从业者的工作量。
2021年底,袁粒从新加坡国立大学博士毕业回国后,在香港、深圳等众多大湾区城市里,首先选择了深圳。在他看来,深圳的环境、气候、科创氛围都与新加坡有诸多相似之处,同时深圳对人才的重视程度高,给予了年轻老师极大的自由度和支持。
在北大深圳研究生院,“科研+教学”成为了袁粒工作的两大重心。在学校,年轻的他与学生常常打成一片,亦师亦友。在他看来,这种和学生相处的关系,能够让他更好地理解学生的需求与压力,凝聚团队。目前,袁粒带的博士和硕士学生已经有10余位,在他的带领下,学生们积极参与到多个科研项目中,感受科研的美丽,展现出了极高的科研创造力和热情。
比如Open Sora Plan项目,袁粒说:“它的意义正是在于凝聚技术共同体的力量,科学技术没有国界,但与有兴趣、有智慧、志同道合的人一起钻研技术,揭开AI的又一层面纱,本就是一种快乐。”
众擎易举:视频生成大模型未来可期
自2月Sora横空出世后,国内视频生成大模型的赛场格外热闹,国内多位“参赛选手”纷纷亮相,有来自科技大厂的阿里达摩院“寻光”、快手可灵AI,也有人工智能新星企业,如智谱AI的“清影”、生数科技的Vidu等,数月之间,AI视频大模型的增速令行业惊叹。
然而,一个科技产品要从实验室走向市场,是否已锻造过硬的实力和市场竞争力,尤为重要。在袁粒看来,当前,视频生成大模型要实现商业化,最关键的是要实现效率的优化和对公司私有数据的利用,企业需要在模型效率优化上投入更多精力,同时利用自己的私有数据在开源模型上进行微调,以适应特定的商业场景。
一项技术的发展,既需要像袁粒团队这样的年轻科研人奋力奔跑,也需要全行业的众擎易举。正如袁粒在采访中多次强调,Open Sora Plan项目的成功,不仅在于技术层面的突破,更在于这种全球范围内的合作,为项目的发展提供了强大动力。
“随着技术的不断进步,视频生成技术将在未来发挥更大的作用,我也会带领团队继续在这一领域深耕,推动技术的创新和应用。”同时,袁粒也表示,希望通过Open Sora Plan项目,能够推动国产AI芯片在视频生成领域的应用,为国产AI技术的发展贡献力量。