Vidu,中国首款具备长时长、高一致性、高动态的视频大模型,惊艳亮相中关村论坛。由生数科技与清华大学联合研发,Vidu可轻松生成16秒、1080P超清视频,支持一键高清视频生成,视觉效果媲美顶尖AI生成模型Sora。
Vidu展现了卓越的多镜头叙事能力、时间空间连贯性及对物理规律的遵循,并能创造出超越现实世界的超现实主义画面。短短两个月,Vidu突破传统GIF局限,技术水平令人惊叹。对此,数字经济应用实践专家骆仁童博士表示,Vidu的出现不仅是技术的突破,更是中国AI视频大模型创新的一次革命。它将算法与艺术的边界模糊化,让我们看到了一个全新的可能性。
在视频创作领域,镜头语言的运用至关重要。传统的AI视频生成方法在镜头语言的应用上往往显得单调且缺乏创新,镜头运动通常仅限于简单的推、拉、移等操作。这主要是由于现有的视频内容生成技术存在局限性,这种技术手段使得长时序的连贯预测变得异常困难,导致视频中只能呈现微小的动态变化。
相比之下,Vidu技术在镜头语言的应用上取得了显著突破。Vidu能够一次性生成包含多个镜头的连贯片段,从近景到远景,整个过程流畅自然。更令人赞叹的是,Vidu还能直接生成转场、追焦、长镜头等复杂效果,在提升视频画面整体叙事感方面表现出色。
除了镜头语言的丰富性外,Vidu还注重保持时间和空间的一致性。在视频制作中,确保画面的连贯和流畅性至关重要,这需要保持人物和场景的时空一致性。
值得一提的是,Vidu还具备模拟真实物理世界的能力。这一特性使得生成的视频在细节表现上更加逼真动人,能够准确地呈现出汽车轮胎扬起的灰尘、树林中的光影以及车行驶过程中的阴影变化等细节。
Sora和Vidu在走路镜头的模拟上可谓旗鼓相当,两者各有千秋。视频中的角色行走自如,尤其是环境渲染方面,霓虹灯在湿漉漉的路面上的倒影,为画面增色不少,使得逼真度大幅提升。Vidu不仅能够生成人物,甚至能模拟出走路的熊,人物一致性让人惊艳。
在处理复杂镜头和多角度切换方面,Vidu也毫不逊色,虽然画面细节仍需打磨,但其流畅的镜头转换宛如真人导演的巧妙构思。
在画面创意方面,Vidu同样令人赞叹,如画室中的船随浪起伏,木制玩具船在地毯上航行等场景,充分展示了其想象力。
在理解和呈现中国文化元素方面,Sora在国外唐人街舞龙环节表现出色,画面细节丰富,文化氛围浓郁。而Vidu生成的“龙”则更接近西方世界的龙形象。
生数科技,清华大学联合孵化的人工智能创业公司,以惊人的速度推出了全新大模型——Vidu。仅用时两个半月,便在业界掀起了一场技术风暴。Vidu不仅代表着生数科技的最新成果,更是团队多年技术积累的结晶。
在朱军副院长的领导下,生数科技的核心团队汇聚了清华大学人工智能研究院的精英力量。他们致力于生成式人工智能和贝叶斯机器学习的研究,深耕行业二十余载。在扩散模型领域,团队更是国内先行者,取得了一系列令人瞩目的成果。
在AI视频生成技术的赛道上,生数科技的Vidu已然成为国内最具竞争力的大模型之一。虽然腾讯等科技巨头也推出了类似产品,但Vidu凭借其卓越的性能和创新性,展现出了追赶甚至超越的潜力。
Vidu的诞生,标志着生数科技在多模态大模型赛道上迈出了坚实的一步。该模型基于U-ViT融合架构,具备强大的长视频表示与处理能力。无论是文本到图像、文本到视频,还是图像到视频、视频到视频,Vidu都能轻松应对,满足各种生成需求。更值得一提的是,Vidu支持任意宽高比和分辨率的视频生成,为用户带来前所未有的创作体验。
商道童言(Innovationcases)欢迎点赞和分享哦!~~
免费电子书:结构化思维 | 荆棘商途 | 年度十词 | 创新企业案例 | 区块链金融
数字经济应用实践专家 骆仁童主讲课程
人工智能:《AI趋势》《ChatGPT》
数字应用:《区块链》《元宇宙》《大数据》
数字中国:《智慧城市》《数字政府》《智慧建筑》《智慧交通》
数字化转型:《制造业数转》《零售业数转》《中小企业创新》
产业数字化:《烟草数转》《银行金融科技》《电力能源互联网》
宏观与趋势:《数字经济》《2024宏观》《双碳》
思维与技能:《数字化思维》《组织变革》
创新与创业:《创业导师》《商业模式》