国产AI视频生成赛道终于再添一员猛将。
这次,是笔者期待已久的AI大模型厂商——智谱!
就在今天,智谱AI CEO张鹏在智谱 Open Day上宣布,智谱清言正式上线AI视频生成功能——清影。
亲测在PC端、APP端和小程序端均能访问!
老规矩,先划重点:
无需预约,开箱即用
所有人可免费可用
API 发布,低至5毛钱/条视频
而且这一波,文生视频+图生视频一波上齐了,笔者第一时间在官网进行了测试。
生成速度非常快!输入提示词后,一条6秒时长的视频仅用30秒就生成好了,而且清晰度达1440 x 960。
更关键的是,可以免费无限次数使用。
经过半天的玩耍,总结下来智谱清影的一些特点:
擅长生成动物、风景、人物等多种实体维度;
卡通3D、电影感、黑白老照片、皮克斯等多种风格都能拿捏;
具备强大的指令跟随能力,视频细节遵从度高;
此外,还提供了给生成的视频配乐的小功能。
如果只用简单的提示词,能快速生成出来具备一定创意参考价值的视频,但视频中常常会有一些“反物理规律”的瑕疵(类Sora的生成式模型普遍会有这类问题)。
但如果配合上高级提示词技巧+抽卡大法,瑕疵问题能大大改善。
在智谱清影的背后,是智谱AI自研的视频生成模型 CogVideoX。
在讲技术前,笔者无意间发现CogVideoX模型的介绍文档里就有非常详细的文生视频“高级提示词指南”,这对于普通用户和开发者来说都有不错的指导意义。
这里节选其中一些提示词技巧:
提示词的精确度与细节水平直接影响视频内容的质量。
采用结构化提示词可以极大提升视频内容的符合度和专业性。
以下是构建提示词的关键组成部分:
提示词 = (镜头语言 +景别角度+ 光影) + 主体 (主体描述) + 主体运动 +场景 (场景描述) + (氛围)
早在2021年,智谱就在人工智能顶会NeurIPS’21上发表了文生图大模型CogView,这是智谱多模态系列产品的奠基模型。而后,智谱在CogView的基础上延伸,于2022年提出并开源了在业界颇具影响力的文生视频模型CogVideo,这项工作被Meta提出的 Make-A-Video、Google的 Phenaki 和 MAGVIT、微软的女娲 DragNUWA、英伟达的 Video LDMs 等视频生成模型所引用。
简单来说,CogVideo基于CogView2模型冷启,沿用Transformer架构,结合了预训练模型、多帧率训练、双通道注意力和Swin Transformer的扩展等设计进行视频生成建模。
而CogVideoX,则是在CogVideo的基础上做了进一步系统性的优化,不仅生成效果更好,而且推理速度提升了6倍,实现了如今智谱清影仅用30s就能生成6秒视频的顺滑体验。
除此之外,笔者了解到,智谱的CogVideoX模型在用户指令遵循方面花了很大力气。智谱甚至专门自研了一个视频理解模型用于为视频数据生成高度吻合的文本描述,进而构建了海量的高质量视频文本对,使得训练出的模型指令遵循度高。
而指令遵循能力强大与否,是视频生成模型能在C端场景落地的重要条件。
逻辑也很简单,当下无论是文生图产品,还是文生视频产品,其对于用户端的重要价值在于提供创意参考。
而一个能帮助用户高效提供创意参考的前提是,模型能很好的理解并遵循用户的指令,之后才是视频生成的质量、时长、清晰度等其他因子,其余的就得交给“抽卡大法”了。
虽然从客观效果上来说,智谱清影跟Sora官方放出的case相比,还存在一定差距。
但做过算法的同学都知道,让模型效果变好的最佳方式就是快速构建出基线模型,上线,然后形成数据飞轮,让模型快速、无偏的去迭代进化。
从这一点上来说,智谱AI选择直接免费开放、人人可用,甚至将API以低至5毛钱的定价开放出去,无疑是一个明智的选择。
而从我们普通用户、开发者的角度来说,更是妥妥的利好了——
视频生成模型的访问门槛终于被智谱打下来了。
智星云是安诺其集团全资子公司上海亘聪信息技术有限公司旗下的GPU算力平台。
平台管理和调度超过1000台GPU服务器,服务器类型包含H800、 A800、 V100、 4090、3090、 3080、2080TI、1080TI 等英伟达全系列服务器,和多种国产信创GPU服务器,公司团队对各种类型及品牌的GPU服务器有着丰富组装和运维经验。