图片来源:可灵大模型官网
OpenAI推出文生视频大模型Sora三个多月后,又一国内大厂公布了在追赶Sora这条赛道上的进展。快手6月6日宣布,“可灵”视频生成大模型官网正式上线,效果对标OpenAI旗下的视频生成大模型Sora。
快手介绍称,可灵大模型为快手AI团队自研,采用与Sora相似的技术路线,结合了多项自研技术创新。该模型支持生成长达2分钟、帧率30fps的视频,分辨率可高达1080p,并支持自由的宽高比。
快手表示,此前各家放出的视频大模型均以展示视频为主,可灵大模型已上线快手旗下的快影App,面向公众开放邀测体验。在官方的用户交流群中,工作人员表示,目前申请非常火爆,快手会优先给专业创作者逐步开放权限体验,请其他用户耐心等待,蓝鲸新闻目前也无法体验到可灵大模型。
今年2月,OpenAI的Sora一经问世便引发行业轰动,成为文生视频的标杆。根据用户输入的文本提示,Sora可生成长达1分钟的高清视频。更令人惊艳的是生成视频足以乱真的效果,能够呈现精细的场景、生动的角色表情以及复杂的镜头运动。Sora目前仍未开启公测,仅向少数艺术家和开发者开放。
而快手也对其文生视频效果感到自信。据介绍,可灵大模型能够生成大幅度的合理运动,并使其符合客观运动规律。在官方给出的视频范例中,一位宇航员在月球上奔跑,随着镜头慢慢抬升,宇航员的步态和影子都能保持合理恰当。
图片来源:企业官方
同时,该模型也能模拟真实物理世界的特性,包括光影反射、流体运动、与物理世界的交互等。在可灵大模型生成的一段“小男孩吃汉堡”的视频中,当男孩一口咬下去时,汉堡出现了一个大大的缺口,并在视频中一直保持。Sora刚推出时,OpenAI曾表示它可能难以准确模拟复杂场景的物理原理,例如一个人咬了一口饼干,但之后饼干可能没有咬痕。
图片来源:企业官方
Sora推出后,国内一些专攻文生视频赛道的初创企业也在加速跟进,试图缩小差距。4月27日,AI企业生数科技发布视频大模型Vidu,支持生成长达16秒、分辨率达1080P的高清视频内容,在性能上同样对标Sora。生数科技近日完成了数亿元的Pre-A轮融资,由百度、北京市人工智能产业投资基金领投。此前3月12日,生数科技已获得一轮数亿元融资,投资方包括启明创投、智谱AI等。
另一AI视频大模型创企爱诗科技也在4月完成A2轮超亿元融资,由蚂蚁集团领投,一年内累计获得融资超2亿元。其爱诗视频大模型于今年3月在国内上线内测,创始人曾表示要在3-6个月内赶超Sora目前水平。
国内几家头部大厂也陆续公布了文生视频模型的进展,但与Sora相比仍存在一定距离。腾讯5月17日表示,混元大模型支持文生视频、图生视频、图文生视频、视频生视频等多种视频生成能力,生成时长可达16秒,预计今年第三季度将推出的下一代文生视频模型可生成30秒以上视频。字节跳动旗下的剪映近期将文生视频产品Dreamina改名为“即梦”,支持生成3到6秒的视频。
视频生成大模型一旦普及,短视频、直播等视频平台将会受到最直接的冲击,传统的内容生产、营销等环节都会发生巨变。而快手表示,作为短视频领域头部玩家,快手在这类视频技术方面有多年的深入积累,视频生成大模型也有天然、广泛的应用场景。