4月27日,在中关村论坛上,生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。
可生成16秒视频
与Sora一致,Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。除了在时长方面的突破外,Vidu在视频效果方面实现显著提升,主要体现在几个方面:
模拟真实物理世界:能够生成细节复杂的场景,且符合真实的物理规律,例如合理的光影效果、细腻的人物表情等;
具有丰富想象力:能够生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容;
多镜头语言:能够生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换,包括能直接生成长镜头、追焦、转场等效果,给视频注入镜头语言;
时空一致性高:在16秒的时长上保持连贯流畅,随着镜头的移动,人物和场景在时间、空间中能够保持一致;
理解中国元素:能够生成特有的中国元素,例如熊猫、龙等;
值得一提的是,短片中的片段都是从头到尾连续生成,没有明显的插帧现象,从这种“一镜到底”的表现能够推测出,Vidu采用的是“一步到位”的生成方式,与Sora一样,文本到视频的转换是直接且连续的,在底层算法实现上是基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理。
补充信息:所谓插帧主要是通过在视频的每两帧画面中增加一帧或多帧来提升视频的长度或流畅度。这种方法需要对视频进行逐帧处理,通过插入额外的帧来改善视频长度和质量,是一个分步骤的过程。但Vidu与Sora则是通过单一步骤直接生成高质量的视频,无需经过多个步骤的关键帧生成和插帧处理。
早于Sora提出U-ViT融合架构
Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构,完全由团队自主研发。
2023年3月,团队开源全球首个基于U-ViT架构的多模态扩散大模UniDiffuser,在全球范围内率先完成融合架构的大规模可扩展性(Scaling Law)验证。UniDiffuser是在大规模图文数据集LAION-5B上训练出的近10亿参数量模型,支持图文模态间的任意生成和转换。在架构上,UniDiffuser比同样DiT架构的Stable Diffusion 3领先了一年。
自今年2月Sora发布后,团队基于对U-ViT架构的深入理解以及长期积累的工程与数据经验,在短短两个月进一步突破长视频表示与处理关键技术,研发推出Vidu视频大模型,显著提升视频的连贯性与动态性。
从图文任务的统一到融合视频能力,作为通用视觉模型,Vidu能够支持生成更加多样化、更长时长的视频内容,同时面向未来,灵活架构也将能够兼容更广泛的模态,进一步拓展多模态通用能力的边界。
但对大模型技术来说,最重要的一步还是商业化落地。近期,国内商汤科技、科大讯飞等大模型公司相继公布了最新研发成果,也都在对标国外最先进的大模型。而从业绩来看,相对于高额研发投入,他们显然还没有进入收获期。因此在对标Sora的过程中,如何商业化落地也将成为Vidu的必答题。