(图片来自AI生成视频截图)
出品 | 搜狐科技
作者 | 梁昌均
编辑 | 杨锦
半年前,OpenAI公布了AI生成视频产品Sora的演示视频,一经推出引发不少赞叹。如今,Sora依然是个期货,而在国内,AI生成视频已成为最卷的赛道之一。
从抖音、快手,到清华系的智谱AI、生数科技,它们在短短几个月迅速出手,还不像Sora那般卖关子,迅速从内测走向全球发布。
从演示视频来看,这些产品虽然时长普遍不及Sora的一分钟,但不少人都感叹内容效果可媲美Sora,一些影视从业者还用这些产品做出了酷炫的AI科幻大片。
这些“国产版Sora”效果到底如何?搜狐科技就此针对抖音即梦、快手可灵、智谱清影、生数Vidu进行了横向对比测评。
目前,这四款产品都有文生视频和图生视频两种形式,部分产品还在研发类似Sora的视频生成视频功能,但尚未对外开放。
从基础功能来看,Sora可最长生成60秒的视频,即梦则有3秒、6秒、9秒和12秒可选,可灵支持5秒和10秒,清影为6秒,Vidu支持4秒和8秒的视频生成。
即梦和可灵的AI生成视频界面
即梦还能选择运镜控制方式(移动、旋转、摇镜、变焦等12种类型和小中大三个幅度)、运动速度(慢速、适中、快速)、模式选择(标准模式、流畅模式)以及视频比例(共计6种),可以说给用户提供了最多的选择,最具产品思维。
相对来说,可灵在时长、视频比例、运镜控制等方面的选择较少,但特色是可以规避不希望呈现的内容,清影和Vidu则整体更加简洁,但清影可以在线添加背景音乐。
清影和Vidu的AI生成视频界面
为更加直观的对比,搜狐科技选择Sora此前受到较多关注的视频所采用的提示词和图片,来看看“国产Sora”们的表现如何(即梦、可灵、清影、Vidu的评测时长分别为12秒、5秒、6秒、4秒)。
这几款产品生成的视频均为一次性生成。Sora发布的视频整体效果不错,但可能经过了多次调整、优化,因此Sora生成的视频仅作为参考。
中国农历新年、中国龙都是中国元素,它们的理解能力如何?
即梦将场景放在了古代,生成的两条龙神态表现较好,还出现了红灯笼等中国喜庆元素,但人物比较抽象。
可灵和Vidu的风格比较写实,生成的龙像是套了个皮的巨大娃娃,可灵还缺乏喜庆氛围,Vidu则有人与表演的互动,但生成的龙似乎多了很多爪子。
清影的喜庆氛围表现不错,还有烟花,但龙舞动的过程不太流畅,且画面还会糊。
对于这个以人物为主体的提示词,即梦最初的人物表情不错,但随着人咬汉堡并开始咀嚼,嘴部出现了特别严重的鬼畜变形(视频慎点),且出现多出手指的情况。
可灵视频主体聚焦放在嘴咬汉堡的过程,咬的动作、手指等细节表现较好。
清影和Vidu则均没能体现出人咬汉堡的过程,对提示词的还原度较低。
即梦的视频缺少对部分提示词的理解,没有体现出是在一杯咖啡中,也没有相互争斗的感觉。
可灵生成的两只船都在咖啡杯边缘,对提示词把握不到位。
清影的视频看着挺像一回事,船在行驶过程中产生水波,咖啡还冒着热气,细节表现较好。
Vidu的视频视角更加广阔,缺乏争斗感觉。
这个是Sora传播较广的翻车视频,由于不能准确模拟玻璃破碎时和液体之间相互作用的过程,因此很多观点认为Sora并不能理解物理世界。
“国产Sora”也会犯同样的错,冰块、红色果汁等内容都能体现,但基本都没能体现出泼溅的正确物理过程。
即梦的视频美感不错,液体受到外部冲击后有泼溅的感觉,但冰块腾空跃起似乎超越了力学原理,杯中的冰块凭空生成。
可灵则完全没有体现出泼溅的过程,清影和Vidu视频中的液体和冰块则直接从杯身或杯底穿过,物理学又不存在了。
总结:短文本提示词较少,对AI生成视频产品的要求相对较低,更能生成符合期望的视频。但从前述测试来看,这些产品无法每次都完全体现出提示词内容,稳定性较差,清影在生成提示词4时还多次出现异常情况。
即梦、清影部分场景细节表现较好,即梦对人物动作的控制能力较弱,且Sora出现的物理问题它们也难以避免。
即梦的视频整体美感不错,对猛犸象的神态刻画比较生动,但行走过程不是特别流畅,间歇性地出现了五条腿。
可灵生成的是没有象牙的猛犸象,且没有毛茸茸的感觉,行走过程和光影细节表现完美。
清影则生成了一群猛犸象,象看起来比较抽象,细节表现不足,运动感较强。
Vidu只生成了两只猛犸象,行走和光影变化体现较好。
即梦视频整体色彩感观不错,但女士脸部和手部在摇动过程中出现了变形,且没有体现出走的内容。
可灵视频中的女士嘴部和手部在行走过程中有些变形,但行走过程比较自然。
清影生成的人物偏向卡通,手提黑包的细节表现较差。
Vidu视频的色彩表现不够鲜明,人物行走比较自然,但手在移动过程中出现变形。
即梦的视频镜头是在汽车前面而不是后面,也没有体现出延伸到远处的蜿蜒土路,提示词理解不够。
可灵整体表现较好,稍显不足的是镜头保持不动,土路不够陡峭。
清影的视频则像加了一层滤镜,画面偶尔有些模糊。
Vidu整体比较写实,但SUV凭空往后倒再向前行驶,可能是出现了幻觉。
总结:长文本涉及的元素比较多,需要生成更为丰富的场景,对AI视频产品理解文本的要求更高,更加考验视频的一致性和稳定性,即人物角色的一致性、场景风格的一致性,同时生成的画面要稳定,呈现合理的线性变化,尤其是在动态场景中,不会出现骤变的人物角色或突兀的场景切换。
从前述评测来看,这四款产品基本不会遗漏核心元素,但会出现理解偏差或变形;即梦整体美感较好,细节表现不足,清影、Vidu也有类似问题,可灵对人物、物体的动态过程表现较好。
即梦对柴犬摆头、挑眉、张嘴吐舌头等进行了动态展现,且前后没有出现变形,保持了一致性。
可灵主要是镜头的变化,柴犬本身无动态变化。清影扩张了柴犬低头、眨眼、张嘴的动作,过程中无明显变形。
Vidu除了表现柴犬眨眼,还变化镜头生成了抬头的动作,一致性表现较好。
从这个示例看,除了可灵,其它三款产品的表现可以媲美Sora,甚至更好。
即梦展现了浪潮达到顶峰并崩散的过程,但其中一个冲浪者凭空出现又凭空消失。
可灵和清影的视频有种慢镜头的感觉,冲浪者没有明显的滑行动作。
Vidu对图片的体现不完整,冲浪者的出现和动作有些莫名其妙。
总结:图片生成视频主要考验的是AI对图片的理解能力以及“想象”拓展能力。从这两个评测来看,对于相对静态的图片,国内产品生成的视频基本可以和Sora媲美,但对动态内容的生成控制能力较弱。
此次评测显示出,如何提高AI生成视频的一致性、稳定性、可控性,是目前所有产品都要持续解决的问题,而业内也在通过首尾帧控制、描述词优化,以及研发有关算法等解决。
但总体来看,目前还没有谁是全能冠军,部分产品还因时长过短更像动图,难以更好体现视频效果。
此外,视频比文本生成的成本更高,所需要的算力大幅提升,此次评测所有视频都需等待2-5分钟甚至更长时间。
未来要想规模应用,还需要在时长、内容效果上继续努力,而如何降低成本、提高大众的可用性就显得非常重要。
看了这些视频,你觉得谁表现最好?会选择用哪款产品?欢迎评论区留言!