当前位置:首页|资讯|AI视频|AI大模型

Vidu引领传媒新纪元:AI视频生成模型突破与前景展望

作者:远瞻慧库发布时间:2024-05-15

本次为大家推荐的报告是《传媒行业专题研究:Vidu~国内AI视频生成模型新突破》,更多重要内容、核心观点,请关注公众号『远瞻慧库』,获取报告完整版。

报告核心内容解读

本报告深入探讨了全球AI大模型的发展趋势,特别是国内AI视频生成模型的最新突破——Vidu。Vidu由北京生数科技有限公司联合清华大学发布,展示了其在一键生成高清视频内容方面的卓越能力,以及在未来推动传媒行业发展的巨大潜力。

一、全球AI大模型迭代升级,多模态发展前景广阔

  • 全球AI大模型,包括Sora、Llama3等海外模型,以及Kimi、昆仑天工AI、阶跃星辰等国内模型,均持续迭代升级。
  • 传媒行业将受益于AI大模型的发展,尤其是AI视频大模型对多样化训练数据的依赖,凸显了高质量视频素材库的价值。

二、Vidu:国内AI视频生成模型的新突破

  • Vidu采用团队原创的U-ViT架构,能够一键生成长达16秒、1080P高清视频,具备多镜头生成、时空一致性高等特点。
  • 核心团队由清华大学人工智能团队组成,首席科学家为清华人工智能研究院副院长朱军。
  • Vidu的多模态大模型融合文本、图像、3D、视频等多模态信息,展现了全面的多模态能力。

三、Vidu快速进化,与国际顶尖模型差距缩小

  • Vidu在短短三个月内,视频生成时长从4秒提升至16秒,展现了快速的迭代速度。
  • Vidu在保证了时空一致性的前提下,实现了较大的运动幅度,优于目前多数文/图生视频模型。
  • Vidu的分辨率已达到行业领先水平,但仍需进一步优化以适应不同尺寸需求。

四、Vidu模型使用U-ViT架构,实现多模态、高效、低成本

  • U-ViT架构基于ViT设计,使用Diffusion生成图像,标志着CNN在扩散模型中被Transformer取代的趋势。
  • U-ViT架构通过简单的图像分割、token表示、Transformer处理和最终输出等步骤,高效生成高质量视频。
  • U-ViT架构的成本优势显著,主要得益于ViT架构的训练成本较低,为Vidu的广泛应用提供了有力支持。

报告节选

因篇幅限制,仅展示部分,关注远瞻慧库,获取报告全文。

免责声明:本平台只做内容的收集及分享,报告版权归原撰写发布机构所有,由『远瞻慧库』通过收集整理,如涉及侵权,请联系我们删除;如对报告内容存疑,请与撰写、发布机构联系。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1