巴黎奥运会如火如荼地进行着,视频生成大模型的赛场同样热闹,国内多位“参赛选手”纷纷亮相,只为争夺名为“中国版Sora”的金牌。
在刚刚过去的七月,生数科技打造的视频大模型Vidu上线,面向用户开放文生视频和图生视频两大功能;智谱AI正式发布视频生成大模型“清影”;商汤发布首个面向C端用户的可控人物视频生成大模型Vimi;阿里达摩院推出一站式AI视频创作平台“寻光”;快手可灵AI正式上线网页端,并开源名为LivePortrait的可控人像视频生成框架……
AI视频大模型令人惊叹的“增速”,不仅在资本市场炙手可热,更带给影视行业不小的冲击,尤其是当抖音、快手以及央视推出AI制作的短剧后,演员和编剧也开始面临“失业危机”。
不过,科技产品从实验室走向市场,能力至关重要。AI视频大模型能否高质量实现生成内容的连贯性和一致性,才是决定其未来发展的关键。
尽管Sora还没有向公众开放,但提及文生视频,Sora是一个绕不开的话题。
“目前,国产视频生成大模型的技术路径与Sora基本一致,只不过每家都会加入自己的Trick(技巧)。”Logenic AI联合创始人李博杰告诉《IT时报》记者,视频的本质可以看成是多张图片的连续排布放映,在文生图大模型中,最被人们熟知的技术是扩散模型,它可以根据输入的文字描述,获取数据的内在结构和分布规律,从而生成单张图片。
但扩散模型在语义、数据之间的联系存在局限,就需要Transformer模型将不同数据进行互相关联,联想生成大量图片,表达帧与帧之间的关系,最终通过编码器压缩成一条视频。
李博杰表示,目前视频生成大模型的算力可以达到ChatGPT3.5的水平,但还不及ChatGPT4的万卡集群规模,国内许多企业都具备这样的算力。因此在有限的算力下,决定视频质量的关键取决于数据的质量和数量,画面的连贯性也可以通过大量数据训练而实现。
不过,由于关键数据获取难、原始世界数据被越来越多的AI生成内容所“污染”,加上视频数据大多缺乏对应描述性文本或者描述质量低下,国产视频生成大模型开始从模型结构、组件等方面寻求技术突破来保证连贯性。
以智谱清影为例,智谱清影相关负责人周文(化名)告诉《IT时报》记者,为了解决内容连贯性的问题,智谱自研的三维变分自编码器结构(3D VAE)将原视频空间压缩至2%,减少了视频扩散生成模型的训练成本及训练难度。
模型结构方面,将因果三维卷积(Causal 3D convolution)作为主要模型组件,移除自编码器中常用的注意力模块,使得模型具备不同分辨率迁移使用的能力。同时,在时间维度上,因果卷积的形式也使得模型具备视频编解码从前向后的序列独立性,便于通过微调的方式向更高帧率与更长时间泛化。
与传统路径不同的是,智谱清影摒弃了交叉注意力机制(Cross Attention)模块,采用将文本、时间、空间三个维度全部融合起来的Transformer架构,在输入阶段就将文本和视频向量化(Embedding),然后再将不同模态的向量直接连接(Concatenate)起来,形成单一的特征向量,输入到下游任务中。
不过,这两种不同结构的数据特征空间有较大差异,此时就需要通过专家自适应层归一化技术(Expert Adaptive Layernorm)对文本和视频两个模态分别进行处理,利用扩散模型中的时间步信息,实现视觉信息与语义信息的对齐。
视频生成大模型的批量上线,最有可能被影响的是影视行业。
“不可否认,视频生成大模型让我们看到了影视发展的新可能。”上海大学温哥华电影学院副院长陈晓达告诉《IT时报》记者,AI生成不仅可以降低影片制作、场景搭建、妆造设计等成本和时间,也降低了入局门槛,一个人就有可能拍摄完一部剧。
6月28日,中央广播电视影视剧纪录片中心制作的三部AI短剧《英雄》《爱永无终止》《奇幻专卖店》上线央视频。此后,博纳影业与抖音合作推出AI科幻短剧《三星堆:未来启示录》,快手也利用可灵AI原创上线了AI奇幻短剧《山海奇镜之劈波斩浪》。截至8月8日,抖音和快手打造的两部AI短剧在所属平台播放量已经分别累计达到5504.7万次和5243.2万次。
从这些AI短剧中可以看到,人物角色的面部特征从始至终保持一致。通常而言,单纯使用文字描述生成视频时,每次的结果都会有一定差异,那么,这些短剧的一致性是如何实现的呢?
李博杰分析,其中可能用到了文生视频的核心模型——ControlNet。ControlNet是一种“辅助式”的神经网络模型结构,通过在Stable Diffusion模型中添加辅助模块,形成一个“锁定”副本和可训练副本。简单来说,通过ControlNet完成人物形象建模后“锁定”,再通过可训练副本进行后期视频场景、动作等变换。
也正是因为“锁定”,视频人物难以实现大幅度动作,陈晓达经过实测后告诉记者,每生成一帧画面都是一次“开盲盒”的过程,无法确保生成内容符合标准,因此只能花费大量时间不断生成,从中挑选出可用画面拼凑成一部短剧,“你会发现宣传的都是3分钟以内的短剧,想要靠AI生成拼凑出一部完整的长视频作品,目前还做不到。”
《山海奇镜之劈波斩浪》导演陈坤同样认为,在人物一致性、场景一致性、人物表演、动作交互等AI技术还没有高度可控和精确化的前提下,AI影视作品并不适合呈现特别复杂的故事,容易让观众出戏。
智谱AI CEO张鹏在接受媒体采访时也表示,现在视频生成大模型的商业化仍处于非常早期的阶段,生成效果对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都有非常大的提升空间。
市场是有“嗅觉”的,虽然目前生成效果并不完美,但视频生成大模型赛道的火热程度不言而喻。启明创投主管合伙人周志峰在2024世界人工智能大会上预测,3年内AI视频生成技术将全面爆发。头豹研究院数据显示,预计到2026年,中国AI视频生成行业的市场规模将达到92.79亿元。
具体来看,快手可灵发布三个多月后,申请体验用户数量已突破 70 万,甚至出现排队等候申请的情况,累计生成的视频作品达 700 万份;爱诗科技打造的PixVerse大模型在国内上线88天后,达到一千万次视频生成量。这也成为央视着手制作AI短剧的原因之一。
当无演员演绎、无场景搭建、无绿幕特效的“三无”AI影视作品走向市场时,演员和编剧的“危机”也悄然来临。博纳影业集团影视制作副总经理曲吉小江在China Joy短剧创新论坛上表示,将为AI短剧塑造的角色打造热门个人IP。
面对AI“威胁”情况,从去年夏天开始,美国编剧工会和演员工会联手发起大罢工,让好莱坞陷入长达数月的停摆,导致影视作品数量大幅减少。据外媒报道,这一情况在今年依然没有出现好转,部分演员还被要求在与华纳公司的合同中同意使用“数字合成形象”,若拒绝则可能失去工作机会。
从国产视频生成大模型的现有能力来看,制作动态海报、广告短片、特效动画等已经不在话下,且应用场景还在扩展。陈晓达认为,技术本身固然重要,但首先要让使用者掌握标准化的工业流程,新技术才得以长效落地,“AI技术短时间内没法取代演员和编剧的地位,但会使用AI技术的人很快就能取代他们”。
对此,上海大学温哥华电影学院在去年2月开始开设AI电影课程,一方面让学生学会使用AI来提升影视制作效率和节省成本;另一方面也是为了顺应时代浪潮,不被“取代”。
图片/ 清影AI 抖音 快手 可灵AI
本文来自微信公众号“IT时报”,作者:沈毅斌,36氪经授权发布。