作者|陶然 编辑|魏晓
文生视频赛道,迎来一份产自国内玩家惊喜:
快手「可灵」视频生成大模型:
寒冷的北极,探险队穿越冰雪,使用雪地摩托追逐极光
六月,可灵大模型官网上线,不但效果对标OpenAI年初发布的Sora,还一改此前各家视频大模型以发布案例为主、只能观看“演示”的套路,直接开放邀请测试权限。
排队申请测试的人数几天时间内便迅速破万,尽管通过审核的用户每天都在增加,但仍有超过35万用户仍在等待中。
可灵AI申请界面
可灵大模型的火爆程度,可见一斑。
七麦数据显示的iOS端数据,进入六月后,随着可灵大模型在快影App的公测,应用下载量在一个月的时间内始终波动上升,峰值单日下载量超过26000,预估单月下载量超过62万。
对于一款定位创作工具的App来说,这个数据确实可观。近一个月,快影在摄影与录像App榜单中始终位处于前十五位,目前已经高居第六,前五则是老几位图像、视频领域的国民级App。
这种备受关注,初期或许有一部分是来自快手在大模型领域的“突然出招”,但现如今,已经体验过的用户,包括蓝媒君在内,几乎都已经为大模型的成像效果叹服。
年初,一段文字生成一段几乎以假乱真视频的Sora全网爆火。业界猜测视频模型这边“大的要来了”。但实际情况是,OpenAI对自家这款看起来遥遥领先的模型,却迟迟未有对外开放体验的迹象,迫切想体验的用户们只能一等再等。
而向来务实的快手,这回则掏出了直接能用的产品,高调宣布:老铁,这回大的可能真来了。
国产Sora成色几何?
严格来说,快手在大模型领域给外界的印象,并非那一类声量极高的头部玩家。但这次发布的文生视频大模型可灵,却着实惊艳了行业一把:
不管是对用户提示词的理解,还是最终成像质量和速度,说句超预期,并不过分。
真实的案例最为直观,先来一个白天的简单场景:
烈日下的广袤沙漠中,考古团队发现了古老遗迹的残存,掘出了神秘古文物。
把更多的人物和更复杂的场景加进去:
在绿树成荫的户外咖啡馆里,顾客们坐在木桌椅上,享受着阳光和咖啡的香气。
最后再测一下光影效果最复杂的夜景中,物体运动的效果:
城市夜幕下,高速赛车在闪烁的霓虹灯光中飞驰,追逐者们穿越繁忙的十字路口,转弯时车尾划过闪光的水坑。
除了镜头移动速度普遍偏慢之外,画面上可灵大模型几乎没有出现大面积的bug。
当然,目前版本的模型在处理多人场景时,成像效果确实还不稳定:
在繁忙的城市公园里,一群年轻人展示着街舞,他们在音乐的节拍下与观众和谐互动。
以及,在处理一些比较细节的人物动作,如“踢球”这类提示词时,对具体运动的表现力仍有提升空间,并且目前生成视频的时长似乎被限制在了5秒:
生成一段时长为15秒的视频,展现一位球员在足球场上奔跑,接到传球后准备射门。
在生成第一段(时长一般为5秒)视频过后,可灵大模型界面给用户提供了一个“延长视频”的选项,用户可以修改或细化提示词,在保留原视频主体的基础上,延长视频的整体时长。
5秒的原视频被延长到了10秒左右,官方称视频时长最多可达两分钟(帧率30fps)。但若要达到这个最大时长,意味用户着需要延长视频数十次,并等待极长的时间,显然对于用户来说,投入产出比并不理想。
不过,至少在文生视频领域,技术层面快手显然已迅速跻身到行业内的领先集团之中。
尽管,可供对比的玩家并不多——从文生图模型快进到文生视频模型,涉及到多模态领域的转变和扩展,是很大跨度的一层台阶。
因此,能达到公测水平,同时还要有足够算力支撑公测的产品,更是少之又少。以至于突然杀入前排之后,除了OpenAI的Sora,快手一时间确实找不到太多公开产品进行贴身对垒。
突然领先,是这样的。
有机会超越OpenAI吗?
目前来看,仍有差距。
至少,仅看官网演示的部分——时长充足、画面稳定,动作和光影的流畅程度完全以假乱真,Sora的模型能力对比同行,确实堪称“降维打击”。
包括快手在内,同行比较现实的选择现阶段仍是保持研发进度、有阶段性的产出落地。
而在技术层面,可灵大模型与Sora,其实有着些许相似的设计思路。
架构选择上,快手大模型团队采用的方案,是类似Sora模型的DiT结构,使用Transformer替代了传统的卷积U-Net。这一转变增强了处理和生成能力,解决了U-Net在处理复杂任务时冗余、感受野和定位精度的问题。
三个问题的优化,使得模型效率和性能提高、能够捕捉到更宽广的特征范围,模型对细节的识别能力也随之增强。
而快手自研推出的3D VAE网络,实现了时空同步压缩,相较于Stable Diffusion所用、存在明显的信息冗余的2D VAE空间压缩方案,获得了较高的重建质量的同时在训练性能和效果也取得了最佳平衡。
配合新设计的、能更准确地建模复杂时空运动并兼顾具运算成本的全注意力机制(3D Attention)作为时空建模模块,有效提升了模型的建模能力。
当然,后台的模型能力是一方面,怎么让用户输入的自然语言对接上大模型的能力,同样需要做额外的建构。
为此,快手专门设计了一款能有效扩展和优化用户提示词的语言模型,相当于在自然语言输入和大模型生成视频之间,再加入一道AI处理工具,将自然语言转录成更符合AI逻辑的字符,从而提升模型对文本指令的响应能力,让视频的主题更清晰、叙事更连贯。
整套设计环环相扣,大模型才能读懂用户需求,并精准建构流畅且高质量的画面。
结语
在文生视频领域,快手算是跑在了行业前排——在一些同行还在聊概念的阶段,直接把产品抛向市场,交给用户测试。
并且生成的视频,也已经完全能够触及“可用”的范围。
当然,提升空间也是有的,比如一些比较复杂或者小众的动作指示处理,比如时长和运镜自由度等等的进一步增加。
可灵大模型,从各方面看应该都只是快手AI布局的前几步,秀一下在快速迭代的AI视频生成领域中,为用户需求提供解决方案能力和技术优势。
至于文生视频何时能作为用户内容的补充,甚至成为缺少素材时创作的主流选项,老铁们应该也可以开始期待了。
Lanmeih/今日话题
快手可灵大模型你体验了吗?评价如何?
咱们评论区聊聊~
Python好学编程 2024-12-20
化工365 2024-12-20