2024-07-04 17:56:27作者:姚立伟
衣着精致的女人行走在东京街头,身着宇航服的宇航员正以坚毅的目光注视前方,头顶黄色气球的气球人在跑跑跳跳……继文本、图像后,视频行业也正在接受AI技术的重塑,不少人认为“AI视频元年”已至。视频为何会成为AI技术最后探索的领域?随着Sora验证算法可行性后,行业玩家们未来又将如何打出差异化、实现真正落地?
当我们谈论AI视频,我们在谈论什么?
现阶段,提及“AI视频”,似乎包罗万象——从文生视频大模型Sora、Runway、快手可灵、万兴“天幕”,到虚拟人视频HeyGen、万兴播爆、Synthesia,再到AI风格化视频DemoAI等,甚至包括文字快剪等AI剪辑技术……一切与“AI+视频”两大元素相关的都可归为这一概念,也让行业对AI视频的探讨稍显不聚焦。
事实上,细究以上所有AI视频的分支,可以发现虽然都是AI技术加持下生成的视频,但其背后的技术路径却大相径庭。
以HeyGen、万兴播爆为代表的虚拟人视频生成主要依靠虚拟人技术,涵盖了面部识别处理、建模、渲染、驱动等技术过程,AI主要体现在驱动虚拟人形象层面,应用场景也主要集中于口播营销、新闻播报等需要人物形象稳定出镜的类别;以DemoAI为代表的AI风格化视频,则是通过将一段原始视频拆解的每一帧原始图像替换为AI风格化图像,再最终合并成一段完整的AI视频形态。
这两种技术,都是“从有到有”“从视觉到视觉”,而实现“从无到有”的,则是文生视频技术,或者说是难度指数级升级版本的文生图技术。
文生视频技术可简要分为“Sora前”和“Sora后”。在Sora横空出世之前,文生视频一直受限于时长,被称为“10秒以内的时代”,而Pika和Runway则是AI视频领域呼声最高的商业类应用。
在这个阶段,文生视频技术基本建立在AI绘画的基础操作之上,本质上是对图像这一基础单位更为复杂的控制生成,需要对图像这一基础单位建立向前和向后等更为复杂的时空逻辑关系,其视频训练的本质也是拆解到对关键帧图像的理解,主要技术路径依靠扩散模型。在很长一段时间内,文生视频技术都以相对较慢的速度向前发展。
AI视频为何受限于“10秒以内”?
相较语言大模型、文生图技术在短时间内相继迎来技术突破,并迎来市场爆火,文生视频技术的进展显得尤为缓慢。控制、时间连贯性、长度是其中的主要问题。
控制,顾名思义,要求算法对视频内所有物体以及发生的情节的绝对性控制,而控制背后的逻辑则是算法对不同物体之间物理关系的透彻理解。AIGC软件A股上市公司万兴科技(300624.SZ)董事长吴太兵在采访中指出,如果说文本大模型只需要理解人类,那么视频大模型需要处理和还原视觉与听觉等信息,相当于理解并构建一个接近真实的世界,这意味着指数级上升的数据和学习成本。
众所周知,视频里包含了大量的交互镜头,包括人与人、人与物体、物体与物体的交互。当一个人行走,他的手臂如何自然摆动、走的每一步中脚和地面之间是否处于相对静止;又或者一个玻璃杯摔落,算法是否知道它会摔碎,如果摔碎那么每一个玻璃碎片又将按照怎样的轨迹弹出;风吹过一片草地,每一根小草该如何随风舞动……所有我们在日常生活中习以为常、视若无睹的极细微运动,均遵循着物理规律,而如此庞大的物理规律的堆叠,使得“控制”成为视频生成领域最为困难的一个问题。
除对视频内容的控制外,时间连贯性也同样重要——如何让角色、物体和背景在帧之间保持一致,而不会变形或扭曲,或者变换成另一个物体。如一个人在街边走路,是否可以保证街边景色的连贯,而正在走路的主人公,他的长相是否能够保持一致……这是一个视频是否可以实际使用的底线,但受限于技术的不可控性,往往很难达成。
此外,视频长度同样重要,且与时间连贯性密切相关。目前,许多公司限制旗下产品生成视频的长度,究其原因,在于他们无法确保几秒钟后的画面一致性。如果只能保证短时间内的连贯性,那么视频将会面临镜头过多、观感差的问题,大大降低了文生视频应用的可能性。
Sora为何成为文生视频“紫微星”?
随着今年初Sora的横空出世,控制、时间连贯性、时长三大问题似乎都迎刃而解,大幅提升的生成质量让不少人直呼文生视频领域的“ChatGPT时刻”已经到来。根据OpenAI公开的技术文档显示,Sora主要依靠三大“秘密武器”解决了以上矛盾。
首先是DiT(Diffusion Transformer)架构。DiT最早完整体现在华人学者谢赛宁教授的论文《Scalable Diffusion Models with Transformers》,后经由OpenAI完整地工业化实现。简单来讲,DiT是将传统的U-Net架构替换为Transformer架构,这样做的理由和优势是:当数据集量级大时,Transformer相比于U-Net更具扩展性,更能促成庞大数据集所带来的涌现能力发生。
此外,Transformer的自注意力机制还极有可能帮助Sora在视频的时间连贯性上取得更好的表现。Sora可以将时间离散化,然后通过自注意力机制理解前后时间线的关系。而自注意力机制的原理就是每个时间点和其他所有时间点产生联系,这是Diffusion Model所不具备的。
第二大“武器”,是Sora特有的视频分解逻辑。对于没有视觉能力、只会理解二进制的计算机来说,如何将包含三维视觉信息的视频拆分成计算机能够理解的格式,以进一步推进训练,是文生视频技术的一大难点。目前,包括Sora在内的大部分大模型都采用了把视频编码成一个一个离散的token的方式,而Sora在此基础上,将视频在三维空间中均分成一个一个小的token,被OpenAI称为“时空补丁”(spacetime patches),更有利于最大化利用视频数据,完成OpenAI的“暴力美学”。
最后是强大的语言理解能力。在OpenAI文生图模型DALLE3的加持下,Sora可以将许多没有文本标注的视频自动进行标注,并用于视频生成的训练。同时因为有GPT的加持,可以将用户的输入扩写成更加详细的描述,使得生成的视频获得更加贴合用户的输入,并且Transformer框架能帮助Sora模型更有效地学习和提取特征,获取和理解大量的细节信息,增强模型对未见过数据的泛化能力。
Sora解决了部分问题,但这就够了吗?
Sora的三大“武器”推动了文生视频“GPT时刻”的到来,也从一定程度上解决了以上种种困扰文生视频领域一年多的问题,但行业的发展速度仍远慢于2023年初大语言模型横空出世之时。距离Sora官宣已近半年,但真正用到这一工具的用户仍寥寥无几,更有不少争议甚嚣尘上。距离文生视频技术成为真正能够代替生产力的工具,我们还有哪些悬而未决的问题?
首先,高质量的训练数据从何而来?相较文本、图像等数据形式,目前全球范围内的高质量标记训练视频数据都处于紧缺状态。虽然YouTube和TikTok等视频平台上不乏可公开访问的视频,但这些原始视频没有经过标注,同时在内容种类上也不够多样化。
从现阶段来看,与专业视频工作室、制作公司,乃至于电视台等机构达成合作,或许是高质量视频数据获取的最优解,而国内显然已有玩家开始探索这一合作模式。作为国内首个音视频多媒体大模型,万兴“天幕”在发布之初,就已落户马栏山,并与中广天择达成大模型算料战略合作,针对中国本土数据采集进行了前瞻性布局,并且已完成了百亿本土化高质量音视频数据沉淀,或可作为案例来借鉴。
其次,谁将负责工作流程?视频创作并非单纯的AI生成可满足,而是需要动画、字幕、音乐、特效等等资源层层结合加码,也正因为音视频制作链路的门槛和复杂性,注定了相关需求无法由单一模型“一气呵成”。
当前,许多创作者常见的创作流程包括从ChatGPT等语言大模型上获取创作灵感、脚本及提示词,从Midjourney等图像大模型上通过文字生成关键帧画面,在Runway等视频大模型上通过关键帧延伸创作出动画视频,在Suno等音频大模型上生成配乐,再将所有素材导入传统剪辑软件进行后期剪辑并制作出成品。纵观整个流程,创作者需辗转多个平台、切换不同软件、多次导入文件,由此带来了飙升的工作量。
而采取“车间模式”协同生产的音视频大模型,或许可以为此问题提出一个可能的解决方向。吴太兵认为,大模型1.0时代生成方式以文本为主并辅以跨模态,内容的可控性不高;2.0时代,垂直大模型增长趋势明显,好比“工匠”,可更快速、更灵活解决细分领域专业性问题,可对“原材料”进行组装等加工,做成“半成品”乃至“成品”,其生成模式更多是多媒体融合的方式,可从模型到应用场景对用户一条龙赋能。
基于此理念,万兴科技推出了万兴“天幕”,以音视频生成式AI技术为基础,聚焦数字创意垂直场景,由视频大模型、音频大模型、图片大模型、语言大模型组成,并拥有超百个AI原子能力,让用户能够“一站式”完成内容创作。
从2022年至今,短短不到两年的时间内,世界见证了AI行业的飞速发展,也更加证实了未来的潜力。虽然偶有困难,但是AI视频技术的明天无疑是光明的,它将继续推动着我们向一个更加丰富、多元和互动的数字世界新时代迈进。