清华系出手，推出全面对标Sora的视频大模型

作者：智东西发布时间：2024-05-06

作者 | ZeR0

编辑 | 漠影

智东西4月27日报道，在今日举行的2024中关村论坛人工智能主题日未来人工智能先锋论坛上，清华大学教授、生数科技首席科学家朱军宣布，生数科技与清华大学联合推出中国首个原创全自研长时长、高一致性、高动态性的视频大模型Vidu。

根据公开融资信息，成立于去年3月的生数科技，是当前主要国内累计融资额及估值最高的类Sora创企，迄今已完成数亿元融资，投资方包括百度风投、智谱AI、蚂蚁集团以及创始成员多数来自于原字节跳动投资团队的锦秋基金。

朱军现场展示了Vidu与Pika、Gen-2、Sora等行业现有文生视频大模型的生成视频效果对比。他评价说，Vidu在16秒长期保持和语义理解等方面表现得非常突出。

▲使用相同提示词，Vidu与Pika、Gen-2生成视频对比

▲使用相同提示词，Vidu与Sora生成视频对比

▲Vidu生成视频的部分动图

Vidu能根据文本描述直接生成16秒高质量视频，且生成视频流畅连贯，没有明显的插帧现象。据介绍，这是因为Vidu采用的是“一步到位”的生成方式，与Sora一样，文本到视频的转换是直接且连续的，在底层算法实现上是基于单一模型完全端到端生成，无需经过多个步骤的关键帧生成和插帧处理。

一、一键生成16秒高清视频，Vidu具有5大特色

Vidu支持一键生成长达16秒、1080P分辨率的高清视频内容，具备模拟真实物理世界、富有想象力、多镜头语言、高时空一致性、理解中国元素等特色。

1、模拟真实物理世界。能够生成复杂、细节丰富的场景，且符合物理规律，例如合理的光影效果、细腻的人物表情等。

▲在输入复杂SUV加速行驶在陡峭土路上的场景描述后，Vidu生成的视频

2、富有想象力。能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容。

▲Vidu根据提示词“画室里的一艘船驶向镜头”生成的视频

3、多镜头语言。能够生成复杂的动态镜头，不再局限于简单的推、拉、移等固定镜头，而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换，包括能直接生成长镜头、追焦、转场等效果，给视频注入镜头语言。

▲Vidu根据提示词“在一个古色古香的海边小屋里，阳光沐浴着房间，镜头缓慢过渡到一个阳台，俯瞰着宁静的大海，最后镜头定格在漂浮着大海、帆船和倒影般的云彩”生成的视频

4、高时空一致性。在16秒的时长上保持连贯流畅，随着镜头的移动，人物和场景在时间、空间中能够保持一致。

▲Vidu根据提示词“这是一只蓝眼睛的橙色猫的肖像，慢慢地旋转，灵感来自维米尔的《戴珍珠耳环的女孩》，画面上带着珍珠耳环，棕色头发像荷兰帽一样，黑色背景，工作室灯光”生成的视频

5、理解中国元素。能够理解、生成特有的中国元素，例如熊猫、龙等。

▲Vidu根据提示词“在宁静的湖边，一只熊猫热切地弹着吉他，让整个环境变得活跃起来。晴朗天空下平静的水面倒映着这一场景，以生动的全景镜头捕捉到，将现实主义与大熊猫活泼的精神融为一体，创造出活力与平静的和谐融合”生成的视频

二、快速突破源于多项原创成果，文生视频能力加速成长中

朱军称其快速突破离不开5个要素：算法原理、模型架构、算力资源、数据治理、工程实现。

他谈道，Vidu的快速突破源于长期积累和多项原创成果，其技术路线与Sora高度一致。2022年9月，其团队在全球首发U-ViT网络架构，这是全球首个Diffusion Transformer架构，这一架构提出3个月后，Sora采用的同源基础架构DiT的论文才发表。

受限于算力限制，其团队起初选择做文生图、文生3D这类计算量相对小一些的大模型研发，2023年3月在全球首发并开源基于U-ViT架构的多模态大模型UniDiffuser，在全球范围内率先完成融合架构的大规模可扩展性（Scaling Law）验证。UniDiffuser是在大规模图文数据集LAION-5B上训练出的近10亿参数量模型，支持图文模态间的任意生成和转换，在架构上比同样DiT架构的Stable Diffusion 3领先了一年。

同年5月，该团队提出文生3D新算法Prolific Dreamer，今年1月发布4D框架Animatable Dreamer并实现可生成4秒视频的文生视频模型。

“Sora出来之后，刺激了我们攻关的速度。”朱军说，团队第一时间紧急启动和攻关，3月将视频时长突破8秒，4月突破16秒，短短两个月实现了长视频表示与处理关键技术的突破，取得了今天的效果，将视频连贯性与动态性显著提升。

结语：推出Vidu大模型合作伙伴计划，共建生态推动视频大模型发展

朱军解释说，Vidu的取名有多重含义，首先字面含义与“Video（视频）”相近，更深层的含义还表达了三个愿景：

一是谐音“We do”，“我们第一时间决定我们应该要做，而且立即去做”；二是谐音“We did”，今天的进展虽然只是迈出一小步，但确实做到在这个方向能够有突破性进展；三是“We do together”，现在的进展还在初步阶段，希望与国内优质单位合作，共同实现技术进步。

大模型的突破是一个多维度、跨领域的综合性过程，需要技术与产业应用的深度融合。为此，生数科技正式推出“Vidu大模型合作伙伴计划”，发起合作伙伴申请通道，诚邀产业链上下游的企业和研究机构共同合作，推动视频大模型发展。

清华系出手，推出全面对标Sora的视频大模型

推荐体验

相关资讯

清华系出手，推出全面对标Sora的视频大模型

全面对标Sora 生数科技联合清华推出国内首个纯自研视频大模型

中国首个视频大模型Vidu颠覆而来，性能全面对标Sora！

清华团队国产“Sora”火了：全面对标国际顶尖水平

中国首个！全面对标Sora

近期资讯

蜂巢能源取得电池的壳体组件专利，提高电池单体的体积利用率

东莞锂威能源科技取得一种电池盖板结构等专利，提高支撑稳定性

巨湾技研取得封装工装专利，有效避免铝塑膜封装不良

中创新航取得单体电池及电池包专利，有利于单体电池于电池组或者电池包内的装配

海门市远翔塑料科技取得便于连接的动力电池盖板组件专利，能方便在高温工作时进行降温，在热失控时进行排气

广州巨湾技研取得一种电池盖板及电池专利，提升电池能量密度

宁德时代取得圆柱电池单体专利，提高极耳与壳体绝缘性能

蜂巢能源取得盖板组件和具有其的电池单体专利，提升电池单体与汇流排的焊接连接效果

蜂巢能源取得电池的顶盖组件和电池单体专利，可减少成本

泰鼎新能源取得软包锂离子电池二封封装结构专利，减少铝塑膜PP层融化液体过压溢出量

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响