智谱AI今天宣布正式推出了其新一代视频生成大模型“清影”与模型底座CogVideoX,该应用已在智谱清言PC端、移动应用端及小程序端多个平台全面上线,此次升级通过全新AI视频生成技术为广大用户带来了前所未有的创作便利。
据悉,CogVideoX不仅丰富了智谱清言的AI视频生成功能「清影」的能力,更在内容连贯性、可控性等方面实现了显著提升。该模型的核心技术亮点在于其高效的三维变分自编码器结构,这一创新设计有效降低了视频数据的存储与处理成本,同时增强了模型在时间维度上对帧间关系的捕捉能力,确保了视频内容的连贯与自然。
在可控性方面,CogVideoX采用了一款先进的端到端视频理解模型,能够深度解析用户输入的文本指令,并据此生成精准匹配的视频内容。这一功能尤其适用于处理复杂且冗长的prompt指令,显著提升了用户创作的自由度与满意度。
值得注意的是,CogVideoX还引入了全新的三维融合transformer架构,该架构通过摒弃传统的cross attention模块,转而采用Expert Block与Full Attention机制,实现了文本、时间与空间三者的无缝融合,进一步优化了模态间的交互效果,使得生成的视频更加生动、逼真。
「清影」作为CogVideoX在智谱清言平台上的直接应用,其快速生成能力尤为引人注目。用户仅需等待30秒,即可获得一段6秒长的视频作品。此外,「清影」还展现出了卓越的指令遵循能力和内容连贯性,能够准确捕捉并还原物理世界中的复杂运动过程。同时,其灵活的画面调度功能也为用户提供了更多创意表达的空间。
为了更好地服务企业和开发者用户,智谱大模型开放平台bigmodel.cn也已部署了「清影」功能。通过API调用方式,企业和开发者可以轻松接入并体验「清影」的文本生成视频和图像生成视频服务,进一步拓展AI视频创作的边界与可能。