OpenAI文生视频大模型Sora发布后,国内企业争相入局,国产文生视频大模型迈入加速阶段。
近日,又一国产视频大模型加入战局,快手自研的“可灵”视频生成大模型官网正式上线,初次亮相的可灵大模型在效果上对标Sora。此前各家大厂发布的视频大模型以展示为主,较少向用户公开使用权限,而可灵已在快手旗下的快影App开放邀测体验,无疑让国产AI视频大模型的竞争再次进入新阶段。
△可灵大模型官网。
OpenAI并非第一家开发视频生成大模型的公司,去年年初,Runway就推出了其视频大模型Gen-1,谷歌也在年底发布了VideoPoet。国内方面,腾讯的AnimateZero、阿里的AnimateAnyone、字节的MagicAnimate等大模型都曾发布过AI生成的展示视频,然而在视频大模型的应用方面,大厂的主流态度仍较为谨慎,无论是国外的谷歌、微软、OpenAI,还是国内的百度、腾讯、阿里、字节,都未向普通用户开放相关模型的使用权限。
作为短视频领域头部玩家,快手在短视频视频技术方面有多年的深入积累,也曾与多个高校或科研机构联手,陆续发布可控运动的视频生成算法Direct-a-Video、多模态生成算法Video-LaVIT、图生视频算法I2V-Adapter、多模态美学评价模型UNIAA等关键技术,为可灵大模型积累了深厚的技术沉淀。其视频生成大模型也有天然、广泛的应用场景。可灵大模型能够生成最长2分钟,分辨率达到1080P的视频,并支持自由的输出视频宽高比。
在官网的演示视频中可以看到,跟随着镜头,小男孩骑自行车游览花园,欣赏春夏秋冬四季的风景。
△完整视频详见可灵官网。
视频中的光影变换、小男孩骑车时衣服自然的随风鼓动等细节极为逼真。为了生成这种大幅度的合理运动,可灵大模型采用了3D时空联合注意力机制,能够更好地建模视频中的复杂时空运动,让视频更符合客观运动规律,真正做到让想象力动起来。下面宇航员在月球上奔跑的例子中,随着镜头慢慢抬升,宇航员跑步的动作流畅轻盈,步态和影子的运动合理恰当。
△prompt:一名宇航员在月球表面奔跑,低角度镜头展现了月球的广阔背景,动作流畅且显得轻盈。
同时,到了可灵一代,细节模糊、前后逻辑不一等问题不再频繁出现,视频大模型变得更加能模拟真实物理世界的特性。得益于自研模型架构及Scaling Law激发出的强大建模能力,可灵大模型构建起了一个无限逼近现实的想象空间,无论是真实世界的光影反射,重力影响下的流体运动,还是与物理世界的交互,可灵大模型都能够生成符合物理规律的视频。在下面这个小男孩吃汉堡的生成视频中可以看到,汉堡被咬掉一个大大的缺口,这个缺口在视频中一直保持,小男孩面部肌肉的动态非常逼真。
△prompt:一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡。
随着AI技术的成熟,视频软件为用户提供的编辑效果已经从添加简单的调色滤镜、贴纸特效转向全面重塑内容本身。
从文字、图像到视频,多模态AIGC连通不同媒介的强大能力让个人创作变得更简单,从前需要一定专业技术才能制作的图像、影像,可以在几秒钟之内根据用户提供的prompt生成视频。
可灵大模型具备的强大概念组合能力和想象力能够让用户在进行视频创作时如虎添翼。凭借模型对文本-视频语义的深刻理解和基于Diffusion Transformer 架构学到的强大概念组合能力,可灵大模型能够将用户丰富的想象力转化为具体的画面,让创意触手可及。
目前,快手旗下快影App的AI创作功能中已正式开放文生视频功能的邀测,支持创作者申请并体验可灵大模型最新的文生视频功能。基于其可灵大模型,更多应用方向也已经或即将落地。
例如,基于肢体驱动的“AI舞王”功能已在快手和快影App成功落地,用户只需上传一张全身或半身照片,即可体验一键跳舞的乐趣。此外,快影APP的图生视频功能也将在近期开放。
公开资料显示,快手已先后发布通用大语言模型“快意”、文生图大模型产品“可图”,还推出了Direct-a-Video、Video-LaVIT、I2V-Adapter、UNIAA等视频关键技术。据悉,伴随此次可灵大模型的发布,快手将持续加速大模型的研发与应用,并开发更加多元的AI创作与互动形式,国产AI视频大模型将加速迈入应用时代。
编辑:李英菁
责编:张利娟
编审:赵珺