当前位置:首页|资讯|提示词

智谱AI发布“清影”,一键生成视频仅需30秒,免费体验通道已开启

作者:新语梦宠物发布时间:2024-08-07

智谱AI近日宣布对其视频生成模型进行全面升级,正式推出了新一代产品——CogVideoX。

这一消息在视频制作和AI技术领域引起了广泛关注。

CogVideoX模型上线:多平台支持

CogVideoX模型已经在智谱清言的PC端、移动应用端以及小程序端正式上线。

所有C端用户现在可以通过智谱清言的AI视频生成功能「清影」(Ying),免费体验AI文本生成视频和图像生成视频的服务。

核心技术特点:三维变分自编码器结构

CogVideoX模型的核心技术特点包括智谱AI自主研发的三维变分自编码器结构(3DVAE)。

这一结构能够将原始视频数据压缩至原始大小的2%,显著降低了视频扩散生成模型的训练成本和难度。

结合3DRoPE位置编码模块,该技术在时间维度上对帧间关系的捕捉能力得到提升,建立了视频中的长期依赖关系,从而增强了内容的连贯性。

可控性提升:端到端视频理解模型

在可控性方面,智谱AI打造了一款端到端的视频理解模型,该模型能够为大量视频数据生成描述。

这一创新增强了模型对文本的理解和对指令的遵循能力,确保生成的视频更加符合用户的输入需求,并能够处理超长且复杂的prompt指令。

创新架构:文本、时间、空间融合Transformer

CogVideoX模型采纳了一种创新的Transformer架构,该架构将文本、时间、空间三维一体融合。

摒弃了传统的crossattention模块,设计了ExpertBlock以实现文本与视频两种不同模态空间的对齐,并通过FullAttention机制优化模态间的交互效果。

「清影」的主要特点:快速、高效、连贯

「清影」的主要特点包括快速生成能力,仅需30秒即可完成6秒视频的生成。

它还具有高效的指令遵循能力,即使是复杂的prompt也能准确理解并执行。

此外,生成的视频能够较好地还原物理世界中的运动过程,展现出良好的内容连贯性。

在画面调度方面,「清影」展现了灵活性,例如,镜头能够流畅地跟随画面中的物体移动。

结语:AI视频生成技术的突破与应用前景

智谱AI的CogVideoX模型及其「清影」功能的推出,标志着AI视频生成技术的又一重要突破。

从核心技术的创新到实际应用的高效性,CogVideoX展现了AI在视频制作领域的广泛应用潜力。

随着技术的不断进步和平台的开放,我们有理由相信,AI视频生成技术将为内容创作者、企业和开发者带来更多便利,推动视频制作行业的革新和发展。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1