中国AI视频大模型Vidu惊艳亮相，性能堪比Sora

作者：神经童非童发布时间：2024-05-04

Vidu，中国首款具备长时长、高一致性、高动态的视频大模型，惊艳亮相中关村论坛。由生数科技与清华大学联合研发，Vidu可轻松生成16秒、1080P超清视频，支持一键高清视频生成，视觉效果媲美顶尖AI生成模型Sora。

Vidu展现了卓越的多镜头叙事能力、时间空间连贯性及对物理规律的遵循，并能创造出超越现实世界的超现实主义画面。短短两个月，Vidu突破传统GIF局限，技术水平令人惊叹。对此，数字经济应用实践专家骆仁童博士表示，Vidu的出现不仅是技术的突破，更是中国AI视频大模型创新的一次革命。它将算法与艺术的边界模糊化，让我们看到了一个全新的可能性。

在视频创作领域，镜头语言的运用至关重要。传统的AI视频生成方法在镜头语言的应用上往往显得单调且缺乏创新，镜头运动通常仅限于简单的推、拉、移等操作。这主要是由于现有的视频内容生成技术存在局限性，这种技术手段使得长时序的连贯预测变得异常困难，导致视频中只能呈现微小的动态变化。

相比之下，Vidu技术在镜头语言的应用上取得了显著突破。Vidu能够一次性生成包含多个镜头的连贯片段，从近景到远景，整个过程流畅自然。更令人赞叹的是，Vidu还能直接生成转场、追焦、长镜头等复杂效果，在提升视频画面整体叙事感方面表现出色。

除了镜头语言的丰富性外，Vidu还注重保持时间和空间的一致性。在视频制作中，确保画面的连贯和流畅性至关重要，这需要保持人物和场景的时空一致性。

值得一提的是，Vidu还具备模拟真实物理世界的能力。这一特性使得生成的视频在细节表现上更加逼真动人，能够准确地呈现出汽车轮胎扬起的灰尘、树林中的光影以及车行驶过程中的阴影变化等细节。

Sora和Vidu在走路镜头的模拟上可谓旗鼓相当，两者各有千秋。视频中的角色行走自如，尤其是环境渲染方面，霓虹灯在湿漉漉的路面上的倒影，为画面增色不少，使得逼真度大幅提升。Vidu不仅能够生成人物，甚至能模拟出走路的熊，人物一致性让人惊艳。

在处理复杂镜头和多角度切换方面，Vidu也毫不逊色，虽然画面细节仍需打磨，但其流畅的镜头转换宛如真人导演的巧妙构思。

在画面创意方面，Vidu同样令人赞叹，如画室中的船随浪起伏，木制玩具船在地毯上航行等场景，充分展示了其想象力。

在理解和呈现中国文化元素方面，Sora在国外唐人街舞龙环节表现出色，画面细节丰富，文化氛围浓郁。而Vidu生成的“龙”则更接近西方世界的龙形象。

生数科技，清华大学联合孵化的人工智能创业公司，以惊人的速度推出了全新大模型——Vidu。仅用时两个半月，便在业界掀起了一场技术风暴。Vidu不仅代表着生数科技的最新成果，更是团队多年技术积累的结晶。

在朱军副院长的领导下，生数科技的核心团队汇聚了清华大学人工智能研究院的精英力量。他们致力于生成式人工智能和贝叶斯机器学习的研究，深耕行业二十余载。在扩散模型领域，团队更是国内先行者，取得了一系列令人瞩目的成果。

在AI视频生成技术的赛道上，生数科技的Vidu已然成为国内最具竞争力的大模型之一。虽然腾讯等科技巨头也推出了类似产品，但Vidu凭借其卓越的性能和创新性，展现出了追赶甚至超越的潜力。

Vidu的诞生，标志着生数科技在多模态大模型赛道上迈出了坚实的一步。该模型基于U-ViT融合架构，具备强大的长视频表示与处理能力。无论是文本到图像、文本到视频，还是图像到视频、视频到视频，Vidu都能轻松应对，满足各种生成需求。更值得一提的是，Vidu支持任意宽高比和分辨率的视频生成，为用户带来前所未有的创作体验。

商道童言（Innovationcases）欢迎点赞和分享哦！~~

免费电子书：结构化思维 | 荆棘商途 | 年度十词 | 创新企业案例 | 区块链金融

数字经济应用实践专家骆仁童主讲课程

人工智能：《AI趋势》《ChatGPT》

数字应用：《区块链》《元宇宙》《大数据》

数字中国：《智慧城市》《数字政府》《智慧建筑》《智慧交通》

数字化转型：《制造业数转》《零售业数转》《中小企业创新》

产业数字化：《烟草数转》《银行金融科技》《电力能源互联网》

宏观与趋势：《数字经济》《2024宏观》《双碳》

思维与技能：《数字化思维》《组织变革》

创新与创业：《创业导师》《商业模式》