Sora引爆公众对大模型生成视频能力的期待后,国内企业也纷纷开启了文生视频领域的探索,继短视频企业快手推出视频模型可灵之后,专注于大语言模型的智谱AI也官宣进军视频模型领域。
7月26日,智谱AI CEO张鹏在智谱Open Day上宣布,AI生成视频模型清影(Ying)正式上线智谱清言,新京报贝壳财经记者实测了清影的视频生成能力,并现场采访了张鹏。
记者实测:等待时间在1分钟以内 视频可选择4种风格
张鹏“官宣”清影发布后,新京报贝壳财经记者登录智谱清言首页发现,出现了一个“清影智能体-AI生视频上线啦!”的弹窗,点击进入并申请内测体验后,申请几乎被“秒通过”,随后进入了清影的界面。
记者发现,清影分文生视频与图生视频两种模式,其中文生视频可以通过输入不超过1000个文字的方式进行视频生成,进阶参数还包括视频风格、情感氛围、运镜方式等,每一个参数又有不同的子选单,如视频风格包括3D卡通、黑白老照片、油画、电影感等。
记者输入完毕并点击生成后,清影显示“预计排队1分钟”,实际不到一分钟,就生成了记者描述的“草原上背对镜头的牛仔”的画面(智谱官方表示生成6秒视频只需要30秒的时间)。此前,记者也以类似的提示词在可灵上生成了一段视频,下图为二者的对比。
清影生成的视频截图。
可灵生成的视频截图。
可以看出,两个大模型都生成了记者描述的场景,不过风格有所不同。此外,相比清影不足1分钟的等待时间,目前可灵的排队时间较长,记者今日向可灵提交了一个视频生成要求后,被告知需要等待近300分钟。
作为一个刚刚上线的AI生视频大模型,清影也有需要完善的地方,如记者输入“潘长江和姚明打篮球”的提示词,在等待了1分钟后被提示“视频生成失败”。对此,张鹏十分坦诚地表示,自己也有生成失败的经历,“目前是收集Bug的过程,欢迎大家反馈。”
据了解,清影能够生成1440x960清晰度的高精度视频。“清影底层的视频生成模型是CogVideoX,它能将文本、时间、空间三个维度融合起来,参考了Sora的算法设计,它也是一个DiT架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了6倍。我们将继续努力迭代,在后续版本中,陆续推出更高分辨率、更长时长的生成视频功能。”张鹏说。
免费使用但需排队 付费5元“加速”一天
在实测中,贝壳财经记者注意到,C端用户使用清影是免费的,只不过要想在排队中“加速”需要支付费用,费用为24小时5元,一年199元。此外,视频生成能力也接入了API,定价为价格为0.5元/次。
对于为何选择这一价格,张鹏告诉贝壳财经记者,目前AI生成视频还处在初级尝试阶段,所以采用了人人可用付费加速的模式。值得注意的是,包括Sora在内,目前许多AI生成视频模型并未把能力开放给公众。在张鹏看来,成本可能是其不开放的原因之一,“顶不住很多人来用”。
而对于清影的开放上线,张鹏表示,“这是为了让大家体验一下目前视频生成在每人可用的前提下能做到什么程度,而不是关在实验室里。现阶段,无论是to C还是to B,纯粹走向大规模商业化还比较早。”
在他看来,AI生成视频是未来实现AGI(通用人工智能)必须要走的路径,而从产品上来说,清影未来是否会独立商业化,“只要市场有需求,我们就会做。收费策略目前是早期尝试,后会调整。”
目前技术仍存局限性 成本够便宜AI生视频才会爆发
张鹏表示,视频生成非常依赖于数据,因此智谱AI通过合作伙伴,以及公开数据集的方式一起完成了数据积累。
另一方面,目前AI生成视频也依旧存在多种局限性,如人物面容不稳定等,每次生成都有随机性等问题。对此,张鹏在接受记者采访时表示,目前AI生成视频已经可以满足某些特定的需求,包括广告短片、演示视频、创意概念表达等,对于要求时间、效率非常快,且对细节要求不严苛时,AI生视频产品能够帮助用户快速降低成本和周期。
对于清影目前有哪些“短板”,张鹏表示,目前虽然模型的指令遵从能力非常强,但是当输入细节非常多时还会遗漏一些细节,遵从能力和可控性上需要继续提高。此外,在帧和帧之间,或者说整个动态展示之间有些细节还存在优化提升的空间,从这个角度来说,一是数据的原因,二是算法上、方法上还有改进的地方。
在被问到如何看待生成式视频技术发展的前景时,张鹏回复贝壳财经记者称,“当生成式视频的成本已经便宜到大家都无所谓了,这个事情就会大规模应用,过程中也会产生其他的商业化的方式,成本收益之间也在持续动态变化。”
记者联系邮箱:luoyidan@xjbnews.com
新京报贝壳财经记者 罗亦丹 编辑 陈莉 校对 穆祥桐