当前位置:首页|资讯

智谱AI开源CogVideoX-5B视频生成模型 低门槛高效率运行时代来临

作者:Jm传媒发布时间:2024-08-30

8月28日,智谱AI宣布开源了最新的视频生成模型CogVideoX-5B,该模型在视频生成质量和视觉效果方面显著优于先前版本的CogVideoX-2B。开发团队对模型的推理性能进行了全面优化,使得推理过程更为高效且易于实现,降低了硬件需求门槛,甚至能够在较早型号的GPU如GTX 1080Ti上运行CogVideoX-2B,在相对主流的桌面级显卡RTX 3060上流畅运行CogVideoX-5B。

CogVideoX是一个基于大规模扩散变换器(DiT)架构的模型,专门设计用于根据文本描述生成相应的视频内容。这一模型的核心技术包括3D因果变分自编码器(3D causal VAE),它能够将复杂的视频信息高效地压缩至潜在空间,并在时间轴上进行解码以重建视频。此外,该模型还采用了专家Transformer技术,该技术融合了文本嵌入与视频嵌入,并利用3D旋转位置编码(3D-RoPE)作为位置编码机制,通过专家自适应层归一化处理不同模态的数据,同时借助3D全注意力机制实现时空联合建模,从而增强了模型的表达能力与生成效果。

对比CogVideoX-5B与之前的CogVideoX-2B,新版本不仅在视频生成的质量上有显著提升,还在模型训练和推理效率上取得了重要进展。对于研究人员和开发者而言,这意味着他们可以更容易地在现有硬件条件下探索视频生成技术的可能性,并推动该领域的发展。感兴趣的用户可以通过访问GitHub上的代码仓库获取更多技术细节,并下载模型进行实验。此外,详细的学术论文也已发布,可供深入研究。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1