本次为大家推荐的报告是《传媒行业专题研究:Vidu~国内AI视频生成模型新突破》,更多重要内容、核心观点,请关注公众号『远瞻慧库』,获取报告完整版。
报告核心内容解读
本报告深入探讨了全球AI大模型的发展趋势,特别是国内AI视频生成模型的最新突破——Vidu。Vidu由北京生数科技有限公司联合清华大学发布,展示了其在一键生成高清视频内容方面的卓越能力,以及在未来推动传媒行业发展的巨大潜力。
一、全球AI大模型迭代升级,多模态发展前景广阔
- 全球AI大模型,包括Sora、Llama3等海外模型,以及Kimi、昆仑天工AI、阶跃星辰等国内模型,均持续迭代升级。
- 传媒行业将受益于AI大模型的发展,尤其是AI视频大模型对多样化训练数据的依赖,凸显了高质量视频素材库的价值。
二、Vidu:国内AI视频生成模型的新突破
- Vidu采用团队原创的U-ViT架构,能够一键生成长达16秒、1080P高清视频,具备多镜头生成、时空一致性高等特点。
- 核心团队由清华大学人工智能团队组成,首席科学家为清华人工智能研究院副院长朱军。
- Vidu的多模态大模型融合文本、图像、3D、视频等多模态信息,展现了全面的多模态能力。
三、Vidu快速进化,与国际顶尖模型差距缩小
- Vidu在短短三个月内,视频生成时长从4秒提升至16秒,展现了快速的迭代速度。
- Vidu在保证了时空一致性的前提下,实现了较大的运动幅度,优于目前多数文/图生视频模型。
- Vidu的分辨率已达到行业领先水平,但仍需进一步优化以适应不同尺寸需求。
四、Vidu模型使用U-ViT架构,实现多模态、高效、低成本
- U-ViT架构基于ViT设计,使用Diffusion生成图像,标志着CNN在扩散模型中被Transformer取代的趋势。
- U-ViT架构通过简单的图像分割、token表示、Transformer处理和最终输出等步骤,高效生成高质量视频。
- U-ViT架构的成本优势显著,主要得益于ViT架构的训练成本较低,为Vidu的广泛应用提供了有力支持。
报告节选
因篇幅限制,仅展示部分,关注远瞻慧库,获取报告全文。
免责声明:本平台只做内容的收集及分享,报告版权归原撰写发布机构所有,由『远瞻慧库』通过收集整理,如涉及侵权,请联系我们删除;如对报告内容存疑,请与撰写、发布机构联系。