当前位置:首页|资讯|清华|Sora

抖快和清华系“国产Sora”对比实测:细节及动态控制不足,物理学又不存在了?

作者:搜狐科技发布时间:2024-08-23

(图片来自AI生成视频截图)

出品 | 搜狐科技

作者 | 梁昌均

编辑 | 杨锦

半年前,OpenAI公布了AI生成视频产品Sora的演示视频,一经推出引发不少赞叹。如今,Sora依然是个期货,而在国内,AI生成视频已成为最卷的赛道之一。

从抖音、快手,到清华系的智谱AI、生数科技,它们在短短几个月迅速出手,还不像Sora那般卖关子,迅速从内测走向全球发布。

从演示视频来看,这些产品虽然时长普遍不及Sora的一分钟,但不少人都感叹内容效果可媲美Sora,一些影视从业者还用这些产品做出了酷炫的AI科幻大片。

这些“国产版Sora”效果到底如何?搜狐科技就此针对抖音即梦、快手可灵、智谱清影、生数Vidu进行了横向对比测评。

一、即梦最具产品思维

目前,这四款产品都有文生视频和图生视频两种形式,部分产品还在研发类似Sora的视频生成视频功能,但尚未对外开放。

从基础功能来看,Sora可最长生成60秒的视频,即梦则有3秒、6秒、9秒和12秒可选,可灵支持5秒和10秒,清影为6秒,Vidu支持4秒和8秒的视频生成。

即梦和可灵的AI生成视频界面

即梦还能选择运镜控制方式(移动、旋转、摇镜、变焦等12种类型和小中大三个幅度)、运动速度(慢速、适中、快速)、模式选择(标准模式、流畅模式)以及视频比例(共计6种),可以说给用户提供了最多的选择,最具产品思维。

相对来说,可灵在时长、视频比例、运镜控制等方面的选择较少,但特色是可以规避不希望呈现的内容,清影和Vidu则整体更加简洁,但清影可以在线添加背景音乐。

清影和Vidu的AI生成视频界面

为更加直观的对比,搜狐科技选择Sora此前受到较多关注的视频所采用的提示词和图片,来看看“国产Sora”们的表现如何(即梦、可灵、清影、Vidu的评测时长分别为12秒、5秒、6秒、4秒)。

这几款产品生成的视频均为一次性生成。Sora发布的视频整体效果不错,但可能经过了多次调整、优化,因此Sora生成的视频仅作为参考。

二、短文本生图:即梦生成人物动作变形,Sora的问题也难避免

  • 提示词1:一个中国农历新年庆祝视频,里面有中国龙

中国农历新年、中国龙都是中国元素,它们的理解能力如何?

即梦将场景放在了古代,生成的两条龙神态表现较好,还出现了红灯笼等中国喜庆元素,但人物比较抽象。

可灵和Vidu的风格比较写实,生成的龙像是套了个皮的巨大娃娃,可灵还缺乏喜庆氛围,Vidu则有人与表演的互动,但生成的龙似乎多了很多爪子。

清影的喜庆氛围表现不错,还有烟花,但龙舞动的过程不太流畅,且画面还会糊。

  • 提示词2:一个男人吃汉堡并在汉堡上留下咬痕

对于这个以人物为主体的提示词,即梦最初的人物表情不错,但随着人咬汉堡并开始咀嚼,嘴部出现了特别严重的鬼畜变形(视频慎点),且出现多出手指的情况。

可灵视频主体聚焦放在嘴咬汉堡的过程,咬的动作、手指等细节表现较好。

清影和Vidu则均没能体现出人咬汉堡的过程,对提示词的还原度较低。

  • 提示词3:两艘海盗船在一杯咖啡中航行时相互争斗的逼真特写视频

即梦的视频缺少对部分提示词的理解,没有体现出是在一杯咖啡中,也没有相互争斗的感觉。

可灵生成的两只船都在咖啡杯边缘,对提示词把握不到位。

清影的视频看着挺像一回事,船在行驶过程中产生水波,咖啡还冒着热气,细节表现较好。

Vidu的视频视角更加广阔,缺乏争斗感觉。

  • 提示词4:含有冰块的红色果汁从杯子里泼溅在桌子上

这个是Sora传播较广的翻车视频,由于不能准确模拟玻璃破碎时和液体之间相互作用的过程,因此很多观点认为Sora并不能理解物理世界。

“国产Sora”也会犯同样的错,冰块、红色果汁等内容都能体现,但基本都没能体现出泼溅的正确物理过程。

即梦的视频美感不错,液体受到外部冲击后有泼溅的感觉,但冰块腾空跃起似乎超越了力学原理,杯中的冰块凭空生成。

可灵则完全没有体现出泼溅的过程,清影和Vidu视频中的液体和冰块则直接从杯身或杯底穿过,物理学又不存在了。

总结:短文本提示词较少,对AI生成视频产品的要求相对较低,更能生成符合期望的视频。但从前述测试来看,这些产品无法每次都完全体现出提示词内容,稳定性较差,清影在生成提示词4时还多次出现异常情况。

即梦、清影部分场景细节表现较好,即梦对人物动作的控制能力较弱,且Sora出现的物理问题它们也难以避免。

三、长文本生图:即梦生成的大象出现了5条腿

  • 提示词5:几只巨大的猛犸象正在穿越雪地,它们长长的毛皮在风中轻轻飘动,远处是覆盖着雪的树木和壮观的雪山。下午的阳光透过薄云洒下温暖的光晕,低角度的镜头令人惊叹地捕捉到了这些大型毛茸茸的动物,展现出了美丽的摄影效果和景深。

即梦的视频整体美感不错,对猛犸象的神态刻画比较生动,但行走过程不是特别流畅,间歇性地出现了五条腿。

可灵生成的是没有象牙的猛犸象,且没有毛茸茸的感觉,行走过程和光影细节表现完美。

清影则生成了一群猛犸象,象看起来比较抽象,细节表现不足,运动感较强。

Vidu只生成了两只猛犸象,行走和光影变化体现较好。

  • 提示词6:一位时尚女士走在东京的街头,周围是温暖的霓虹灯光和充满活力的城市标识。她穿着一件黑色皮夹克,一条长红裙,脚踩黑色靴子,手提一只黑色手袋。她戴着太阳镜,涂着红色口红,自信而随意地走着。街道潮湿且反光,彩色灯光在地面上形成了镜面效果,许多行人来来往往。

即梦视频整体色彩感观不错,但女士脸部和手部在摇动过程中出现了变形,且没有体现出走的内容。

可灵视频中的女士嘴部和手部在行走过程中有些变形,但行走过程比较自然。

清影生成的人物偏向卡通,手提黑包的细节表现较差。

Vidu视频的色彩表现不够鲜明,人物行走比较自然,但手在移动过程中出现变形。

  • 提示词7:镜头跟随一辆带有黑色车顶行李架的白色复古SUV,它在陡峭的山坡上一条被松树环绕的陡峭土路上加速行驶,轮胎扬起灰尘,阳光照射在SUV上,投射出温暖的光芒。土路缓缓地蜿蜒延伸至远方,看不到其他汽车或车辆。道路两旁都是红杉树,点缀着一片片绿色植物。从后面看,这辆车轻松地沿着曲线行驶,看起来就像是在崎岖的地形上行驶。土路周围是陡峭的丘陵和山脉,上面是清澈的蓝天和缕缕云彩。

即梦的视频镜头是在汽车前面而不是后面,也没有体现出延伸到远处的蜿蜒土路,提示词理解不够。

可灵整体表现较好,稍显不足的是镜头保持不动,土路不够陡峭。

清影的视频则像加了一层滤镜,画面偶尔有些模糊。

Vidu整体比较写实,但SUV凭空往后倒再向前行驶,可能是出现了幻觉。

总结:长文本涉及的元素比较多,需要生成更为丰富的场景,对AI视频产品理解文本的要求更高,更加考验视频的一致性和稳定性,即人物角色的一致性、场景风格的一致性,同时生成的画面要稳定,呈现合理的线性变化,尤其是在动态场景中,不会出现骤变的人物角色或突兀的场景切换。

从前述评测来看,这四款产品基本不会遗漏核心元素,但会出现理解偏差或变形;即梦整体美感较好,细节表现不足,清影、Vidu也有类似问题,可灵对人物、物体的动态过程表现较好。

四、图片生图:部分场景可媲美Sora,动态场景表现较差

  • 图片1:一只戴着贝雷帽、穿着黑色高领毛衣的柴犬生成视频(图片由DALL-E生成)

即梦对柴犬摆头、挑眉、张嘴吐舌头等进行了动态展现,且前后没有出现变形,保持了一致性。

可灵主要是镜头的变化,柴犬本身无动态变化。清影扩张了柴犬低头、眨眼、张嘴的动作,过程中无明显变形。

Vidu除了表现柴犬眨眼,还变化镜头生成了抬头的动作,一致性表现较好。

从这个示例看,除了可灵,其它三款产品的表现可以媲美Sora,甚至更好。

  • 图片2:在一个华丽的历史大厅里,一股巨大的浪潮达到顶峰并开始崩散,两个冲浪者抓住时机,巧妙地在海浪表面滑行(图片由DALL-E生成)

即梦展现了浪潮达到顶峰并崩散的过程,但其中一个冲浪者凭空出现又凭空消失。

可灵和清影的视频有种慢镜头的感觉,冲浪者没有明显的滑行动作。

Vidu对图片的体现不完整,冲浪者的出现和动作有些莫名其妙。

总结:图片生成视频主要考验的是AI对图片的理解能力以及“想象”拓展能力。从这两个评测来看,对于相对静态的图片,国内产品生成的视频基本可以和Sora媲美,但对动态内容的生成控制能力较弱。

五、评测总结

此次评测显示出,如何提高AI生成视频的一致性、稳定性、可控性,是目前所有产品都要持续解决的问题,而业内也在通过首尾帧控制、描述词优化,以及研发有关算法等解决。

但总体来看,目前还没有谁是全能冠军,部分产品还因时长过短更像动图,难以更好体现视频效果。

此外,视频比文本生成的成本更高,所需要的算力大幅提升,此次评测所有视频都需等待2-5分钟甚至更长时间。

未来要想规模应用,还需要在时长、内容效果上继续努力,而如何降低成本、提高大众的可用性就显得非常重要。

看了这些视频,你觉得谁表现最好?会选择用哪款产品?欢迎评论区留言!


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1