4月27日,在中关村论坛未来人工智能先锋论坛上,中国首个长时长、高一致性、高动态性视频大模型Vidu正式发布。这一模型由清华大学和大模型创业公司生数科技联合发布,可以一键生成长度达16秒、分辨率为1080P的高清视频内容,这也是自OpenAI发布Sora以后,全球率先取得重大突破的视频大模型。借助这一智能大模型,未来它是否能与沉浸式投影融合,为观众带来更丰富、更便捷的生动视效呢?
近日,生数科技联合清华大学发布了视频大模型Vidu,引发了广泛关注。这一模型支持一键生成长达16秒、分辨率达1080p的高清视频内容,画面效果接近Sora,并且在多方面表现出色,包括镜头语言、时空一致性、物理模拟等方面,让人惊叹不已。在实践过程中,Vidu生成的视频不再是持续几秒的GIF,而是达到了16秒,并且做到了画面连续流畅,且有细节、逻辑连贯,尽管都是运动画面,但几乎不会出现穿模、鬼影、运动不符合现实规律的问题,而实现这般效果,背后团队只用了两个月的时间。
“画室里的一艘船驶向镜头”,只需要输入这样一句简单的指令,即可以生成效果逼真、镜头连贯的一段视频。据生数科技介绍,Vidu模型采用团队原创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。正是基于在机器学习和多模态大模型的长期积累,团队才能够在短短的两个月时间里突破了长视频表示与处理的多项关键技术,成功研发推出Vidu视频大模型。
那么,这一视频大模型与其他相比,又有哪些特点与优势呢?首先,它可以模拟真实物理世界,可以生成复杂、细节丰富的场景,光影效果与人物表情都能够符合真实的物理规律,同时,Vidu具有多镜头语言,不再局限于固定镜头,能够在遵循主体一致性的情况下实现远景、近景、中景、特写等不同镜头的动态切换,还可以实现长镜头、追焦等效果。富有想象力的提示词,可以虚构出丰富的场景以及超现实主义的画面,出色的视频时长也能保持镜头和主体的连贯一致,更具特色的是,Vidu能够生成特有中国元素的画面,比如熊猫、神龙、宫殿场景等,创造出活力与平静的和谐融合。
在视频大模型Vidu的卓越性能之下,它可以生成高清、长时长、高动态性的视频,如果在未来它能与沉浸式投影相结合,将为体验空间提供更为生动、逼真的画面,进一步增强观众的沉浸感。
Vidu能够生成丰富多样的视频内容,借助多媒体投影融合技术,这些画面能够呈现出更好的效果,为观众带来一种身临其境的体验。例如山川河流、森林草原、城市街景、科幻世界等等,Vidu都能通过其强大的视频生成能力提供逼真的场景再现,同时还可以用于创造和展示一些超现实的、富有想象力的内容,无论是在娱乐、教育还是商业领域,这一技术都将具有巨大的发展潜力。
文章编辑:偏锋光术栗子
36氪 2024-12-21
IT之家 2024-12-21
迈维医学 2024-12-21
钛媒体APP 2024-12-21
依17779130177 2024-12-22
深德鸿环保新材料 2024-12-22