人人可用，智谱 AI 推出新一代视频生成模型-----CogVideoX

作者：ChatGLM发布时间：2024-07-26

人类作为一个高度复杂的系统，其认知功能依赖于大脑各区域间的协同作业，这不仅涉及文字、语言的加工，还包括视觉理解与听觉处理等多个方面。

我们坚信，多模态感知与理解的整合和提升，与认知能力的发展密切相关。

作为致力于实现通用人工智能（AGI）的公司，智谱 AI 始终高度重视多模态技术的发展。自2021年起，智谱 AI 技术团队便开始着手布局包括 text-2-img、text-2-video、img-2-text、video-2-text 在内的多模态模型，并陆续研发并开源了CogView、CogVideo、Relay Diffusion、CogVLM、CogVLM-Video等多个先进模型。

在此，我们荣幸地宣布，对视频生成模型进行全新升级，并正式推出新一代产品——CogVideoX。

CogVideoX的核心技术特点如下：

针对内容连贯性问题，智谱AI自主研发了一套高效的三维变分自编码器结构（3D VAE）。该结构能够将原始视频数据压缩至原始大小的2%，显著降低了视频扩散生成模型的训练成本和难度。结合3D RoPE位置编码模块，该技术有效提升了在时间维度上对帧间关系的捕捉能力，从而建立了视频中的长期依赖关系。

在可控性方面，智谱AI打造了一款端到端的视频理解模型，该模型能够为大量视频数据生成精确且内容相关的描述。这一创新增强了模型对文本的理解和对指令的遵循能力，确保生成的视频更加符合用户的输入需求，并能够处理超长且复杂的prompt指令。

我们的模型采纳了一种将文本、时间、空间三维一体融合的transformer架构。该架构摒弃了传统的cross attention模块，创新性地设计了Expert Block以实现文本与视频两种不同模态空间的对齐，并通过Full Attention机制优化模态间的交互效果。

CogVideoX 模型目前已在智谱清言的PC端、移动应用端以及小程序端正式上线。所有C端用户均可通过智谱清言的AI视频生成功能「清影」（Ying），免费体验AI文本生成视频和图像生成视频的服务。

「清影」的主要特点如下：

快速生成：仅需30秒即可完成6秒视频的生成。
高效的指令遵循能力：即使是复杂的prompt，清影也能准确理解并执行。
内容连贯性：生成的视频能够较好地还原物理世界中的运动过程。
画面调度灵活性：例如，镜头能够流畅地跟随画面中的三只狗狗移动，效果宛如专业摄影师的跟拍。

此外，我们在智谱大模型开放平台 bigmodel.cn 上也部署了「清影」。企业和开发者可通过API调用方式，体验并使用「清影」的文本生成视频和图像生成视频功能。

人人可用，智谱 AI 推出新一代视频生成模型-----CogVideoX

推荐体验

相关资讯

谷歌推出新一代视频生成模型Veo 2

Runaway推出新一代视频生成模型Gen-3 Alpha

越发真假难辨？谷歌推出新一代视频生成模型Veo 2

智谱清言 App 全新升级视频通话功能，并推出新一代基座大模型

PK Sora，Runway发布新一代视频生成模型

近期资讯

中天科技获得实用新型专利授权：“管材切割装置”

轻松连接电脑与投影仪的实用指南，提升你的视觉体验与工作效率

风神股份获得实用新型专利授权：“一种压延机压力辊监测限位装置”

顿号在汉字书写中的重要性与正确使用方法探讨

轻松连接华为手表与手机，开启智能生活的便利体验

烽火电子获得实用新型专利授权：“一种多功能网关设备”

超频三获得外观设计专利授权：“水冷头（数显款）”

选购相机指南：如何根据需求和预算选择合适的摄影设备

中铁工业获得实用新型专利授权：“一种开口肋组装可调角度定位装置”

轻松设置彩铃，让你的手机来电更个性化与有趣

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响