中国版Sora——Vidu进展曝光：时长延至32秒，首次支持音视频合成

作者：甲小姐甲子光年发布时间：2024-06-19

时隔40天，全面对标Sora的中国首个自研视频大模型Vidu重大进展低调曝光。

6号下午，在北京举办的CCF大模型论坛线下专题活动上，清华大学人工智能研究院副院长、生数科技首席科学家朱军教授放出了Vidu的最新进展。

1、目前Vidu可以一键生成32s视频；

2、支持音视频合成，即Vidu视频生成有声音了；

3、支持4D生成，可以从单一视频生成时空一致的4D内容。

首先，现场展示了一段Vidu生成的32秒画面。描述词为：这是一个图书馆书架放着的地球仪，它轻轻地旋转着，表面描绘的是地球的地图，相机逐渐拉近，地球仪表面剥开后，有一颗类似地球的蓝色星球。从现场放出效果看，32秒时长画面连贯，画面效果逼真，地球仪表面的地图信息也细颗粒度的复现，同时从“地球仪”到“内部蓝色星球”的动态转场也很好的实现。

此外，现场展示了三段此前Vidu发布的Demo，但这次是“有声版”。

首先是“画室里的一艘船驶向镜头”的片段，在强表现力、丰富想象力的画面之上，同步生成了背景音，包括海浪声、船的撞击声，声音自然，与画面高度匹配。

另一段“汽车在陡峭山坡上行驶”的片段。现场放出的配音版，能直观听到汽车发动机声音，以及轮胎在地面摩擦的声音，音画同步，包括能感受到森林环境的背景音。

还有一段，是镜头围绕一大堆老式电视旋转，所有电视都显示不同的节目，20世纪50 年代的科幻电影、恐怖电影、新闻、静态、1970年代的情景喜剧等，背景设置在纽约一家大型博物馆画廊内。在声音效果上，该片段能够生成出嘈杂的环境和电视播放的声音内容，非常符合实际效果。

最后还有一段片段，展现了32秒时长的音频生成。朱军表示，理论上底层架构支持任意时长的音频生成和匹配。

目前，生数科技官方还暂未放出正式的发布消息。但从现场效果来看，国产视频生成模型的时长天花板，在短短一个月后，再度被拉高至32秒。

另外值得关注的是，Vidu正朝着“更长时长”和“更多模态”的方向进化，并在短期内已快速取得了较好的阶段性效果。在视频生成之后，音频生成或将成为Vidu迭代的重点方向。

另外现场展示了一项Vidu4D的工作，据现场介绍，Vidu4D支持从单个生成的视频中精确重构出4D（即序列3D）。据朱军表示，该项工作能有效提升视频生成模型效果，通过提升3D一致性，来增强视频生成对世界的真实模拟。

目前该论文已挂arXiv。论文地址：

https://arxiv.org/abs/2405.16822

近期资讯

东田工控 2024-12-28

颠覆传统的创新科技—SuPAR™ 视觉交互式检查应用软件

现代工业社会中，视觉检测设备的高效性和精准度成为企业提升产品质量、优化生产流程、增强市场竞争力的关键所在。SuPAR™ 是一款集成了视觉技术和智能交互的检查应用软件，通过高精度的图像捕捉与处理技术，能够快速、准确地检测出产品中的缺陷与瑕疵，确保产品质量的稳定性和可靠性，是企业数字化转型升级、实现高质量发展的有力帮手。一、全面化、沉浸式检查——SuPAR™ SuPAR™ 能够满足不同行业的检查需求，无论是工业生产、实验室测试，还是质量控制，SuPAR™ 都能够提供快速、准确的检查结果。操作员将CAD数据

宝力机械科技 2024-12-28

数据防泄漏解决方案：技术与管理两大层面十个措施，全面保护企业核心资产的安全屏障

在数字化时代，数据已经成为企业最宝贵的资产之一。无论是客户信息、财务数据，还是知识产权，数据的安全性直接影响到企业的稳定与发展。然而，随着信息技术的不断发展，企业面临的数据泄漏风险也愈加严峻。数据防泄漏（DLP，Data Loss Prevention）解决方案的需求日益增长，成为各行各业防范数据泄漏、保护企业核心竞争力的重要手段。本文将探讨数据防泄漏解决方案的核心要素，帮助企业构建更为完善的数据安全防护体系。以下是一些有效的数据防泄漏解决方案：一、技术层面的解决方案1.部署高效的数据防泄密软件域智盾软件

企业超管 2024-12-28

虚拟仿真技术，引领城市景观设计教育革命

随着现代城市的不断演进，城市景观设计不仅塑造城市形象，更是提升居民生活质量的关键。面对理论与实践的脱节、技术更新迅速、跨学科知识融合的复杂性等挑战，恒点智能教育推出的虚拟仿真技术计划，通过模拟真实环境和整合最新技术，为城市景观设计教育和实践提供了创新的解决方案。 [图片] 虚拟仿真为城市景观设计教育和实践提供了创新的解决方案【城市景观传统教育的弊端】在城市景观设计领域，传统教育和实践模式正遭遇前所未有的挑战。现有教学中的弊端不仅影响了教育质量，也削弱了学生解决实际问题的能力，限制了他们的创新思维和实践

恒点信息 2024-12-28

中国版Sora——Vidu进展曝光：时长延至32秒，首次支持音视频合成

推荐体验

相关资讯

钛媒体独家｜“中国版Sora”视频大模型Vidu重大更新：时长延至32秒，首次支持音视频合成

Vidu再燃AI视频生成赛道万兴天幕加速音视频大模型应用落地

音视频字幕生成：基于 openai-whisper 提取音视频文件文字

NVIDIA版Sora曝光！每天疯狂爬取80年时长视频

中国首个Sora级模型 Vidu 发布：生成最长16秒、最高 1080P 视频

近期资讯

免费开源的电商系统源码附带开发文档_OctShop

南极中山站是如何供电的，需要用到哪些电缆

宽博高清液晶双面屏条形屏消隐和残像的原因及预防措施

览邦Watch Ultra智能手表设计够旗舰，够出色，性能有点炸裂啊！

理想汽车迈向全球领先的人工智能企业

飞腾工控机可以在哪些行业应用？性能怎么样？

4U上架式工控机:非标自动化设备的智能伙伴

颠覆传统的创新科技—SuPAR™ 视觉交互式检查应用软件

数据防泄漏解决方案：技术与管理两大层面十个措施，全面保护企业核心资产的安全屏障

虚拟仿真技术，引领城市景观设计教育革命

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响