当前位置:首页|资讯

可灵又更新了!和海螺、即梦比拼体操、吃面,谁是最强国产 AI 视频

作者:AppSo发布时间:2024-12-23

等了 10 个月才发布的 Sora,实测的表现让人失望。Google 的 Veo 惊艳众人,但排队遥遥无期,不知道什么时候能玩。

还是来看看百花齐放、都能用上的国产 AI 视频模型吧。最近,可灵的视频生成模型更新了 1.6 版本,同时加量不加价,生成视频的积分没有变。

这次可灵的更新,最直观的是图生视频的进步。

那么,我们就来一次图生视频比拼,从人物表演、物理规律、多主体等角度出题,让可灵和海螺、即梦同题 PK,看谁遥遥领先。

关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察

吃披萨,喝酒,谁最没有 AI 味

大概从 AI 威尔·史密斯吃面开始,我们就很喜欢让 AI 品味各种美食,并用 AI 的吃相评判技术进步的程度。

先让《老友记》的乔伊吃个披萨,输入一样的提示词,「男人坐在沙发上,将披萨送至嘴边,轻轻咬下一口,镜头轻微拉近,聚焦在吃披萨的动作上」。

可灵让乔伊成功咬下了披萨,披萨少了一口,甚至披萨到嘴边还能拉丝,不过面部肌肉有些用力过猛。

可灵生成

海螺的表演也很完整,吃相比可灵收敛,但牙齿有些穿帮。

海螺生成

即梦完全在状况外,只是让乔伊坐了起来。

即梦生成

吃多了干巴巴的面食,让 AI 挑战一下液体吧。

这次请出日剧《我,到点下班》的女主,输入提示词「女性放下捂着脸的右手,端起啤酒杯轻抿一口,眼睛微眯,露出满足的微笑表情」。

这段提示词同时包含了人物动作和表情的变化,可灵的表演堪称完美,酒送到嘴边时,液体和泡沫都自然地倾斜,甚至主角还边喝边不自觉地眨了眨眼。

可灵生成

海螺的前半部分完成得还行,但后面就放飞自我乱加戏了,主角自顾自地看向了镜头,提示词没这段呀。

海螺生成

至于即梦,请问是怎么了呢?捂着脸的右手没放下,杯子倾斜成这个角度了,还一滴都没有洒出来,是不是要找牛顿秉烛夜谈。

即梦生成

切番茄,做体操,物理规律怎么就这么难学

现在,让可灵、海螺、即梦从餐桌下来,挑战大自然习以为常、却让 AI 们犯难的事情。

最近,OpenAI Sora 和 Google Veo 的切番茄对比,成了群嘲 Sora 的又一个依据。现在,我们也让三个国产 AI 下一回厨房。

这次的提示词写得比较详细:「写实风格,特写镜头,厨师正在砧板上切番茄,手部动作流畅,番茄被切成均匀的片状,汁液微微溅出,流畅的动态效果。」

可灵切的番茄一片片厚薄均匀,而且刀片下压和掉在砧板上的时候,番茄会发生形变。但第二刀应该切到手指了,可灵却表示没事。

可灵生成

海螺这是在切番茄吗?更像是在锯木头。

海螺生成

即梦开了个好头,结果这个番茄是越切越完整,一倒下又成了半个,让人绷不住了。

即梦生成

再来看看 AI 怎么理解奔跑和跳跃,我先用 AI 生成了一张水墨风的画,输入提示词「梅花鹿跑了几步到池塘边,优雅地跳过水面,消失在画面左侧」。

可灵的鹿虽然没能跳过水面,落进了水里,但总体遵循了提示词,水面跟随鹿的动作,溅起了水花。

可灵生成

海螺的鹿是消失了,原地打转把自己转没了。确认了,是个搞笑视频。

海螺生成

即梦的前半段还可以,鹿走了几步,也往水面跳了,但这个结尾抽象得看不懂。

即梦生成

体操被称为是 AI 视频界的「图灵测试」,因为难度太高了,肢体动作太复杂了,让 AI 生成,很容易出来不准确甚至恐怖的画面。

拿美国体操女王拜尔斯的图片一试,果然如此。我的提示词写得很简单,「一位女性体操运动员在平衡木上表演」,就想让 AI 自由发挥,但结果一言难尽。

可灵少做少错,一个动作都没有表演呢,5 秒就过去了。

可灵生成

海螺老老实实地炫技了,但你盯上 10 次也很难理解,腿是怎么翻转的,人的正面和背面怎么切换的。

海螺生成

即梦和可灵差不多,试图用慢动作过关,但奇怪的手已经暴露了这是个 AI。

即梦生成

打败小鲜肉,对标老戏骨

如果未来 AI 短剧、AI 电影大行其道,那么演技必须要比内娱的小鲜肉们好。所以,来考考国产 AI 的演技。

拿出电影《希德姐妹帮》的名场面截图,输入提示词「女性的嘴角叼着香烟,她微笑了一下,然后抬起右手,从外套口袋掏出金属打火机,掀开打火机盖点火,并将火焰凑近香烟末端」,让 AI 抽个烟。

可灵的表演太细了,每个表情和动作都遵循了提示词。掏打火机的时候,主角低下头,点火的时候,主角也是看着香烟,演技浑然天成,但这个打火机怎么点的,没看明白。

可灵生成

海螺的完成度也很高,但掏烟的地方不太对,并且左手在做假动作,根本就没碰到打火机。

海螺生成

即梦又自己发挥了,别说点烟了,烟自己都神出鬼没的。

即梦生成

再用 AI 生成的游戏 CG 风格的侠女,考验特写下的微表情。

我精心设计了表情的层次,输入提示词「少女先是露出惊愕的表情,随后显得愤怒,眼神变得凌厉,最后扬起嘴角,露出带着杀意的冷笑」,就看 AI 们能不能演出来了。

可灵表演出了惊愕,愤怒和冷笑不是很明显,至少表情是灵动的,发丝也飘动得恰到好处。

海螺的表演不能说不对,但太外放了,属于练习时长两年半的演技。感觉她在骂人,并且骂得很难听。

海螺生成

即梦这次的演技,算是三个 AI 里最好的了,虽然也没能演全,但表现出了凌厉的眼神。

即梦生成

复杂提示词,谁的阅读理解能力最强

多主体、多动作的复杂场面,对于 AI 来说也是一个难题。基于电影《百元之恋》的拳击擂台名场面,AI 们能不能生成一场精彩的比赛?

我输入了图生视频提示词——「两位女拳击手在擂台上对战,穿红色短裤的选手快速出左勾拳,穿蓝色短裤的选手后撤躲避后立即反击直拳,双方动作敏捷有力」。

可灵打得有来有回,语义理解也不错,知道是谁先出拳,先出哪只手,但力度软绵绵的,没有真实比赛里拳拳到肉的感觉。

可灵生成

海螺的场面一度有些混乱,一招鲜吃遍天,就看谁的出拳快。即梦更离谱,把拳击搞成了近身攻击。

海螺生成

即梦生成

两个人的打斗可能有点难,再来试试各就各位的才艺演出。

我选取了《死侍与金刚狼》的剧照,配上提示词「六位超级英雄保持队形站位,同步抬起双手做出心形手势,然后整齐划一地转身」。

可灵的比心不太同步,转身还没结束,视频就结束了。

可灵生成

海螺的比心整齐划一,但这个转身方式也是我没想到的。至于即梦,连比心都犹犹豫豫的,金刚狼你到底在坚持什么?

海螺生成

即梦生成

这是一次没有广告、纯花钱买积分自测的比赛,其中,可灵选择的是 1.6 模型,海螺选择的是 I2V-01 模型,即梦选择的是 S2.0 Pro 模型。

测评下来,虽然三个国产 AI 各有胜负,但在题目的范围内,可灵的总体表现是最好的。

可灵的运动相对合理,对提示词和物理规律的遵循也还可以,但有时候画面美感差了点,高难度的运动也有待学习。

可灵生成,基于电影剧照,吃意大利面

虽然可灵还称不上指哪打哪,但它的图生视频,对提示词理解得比较深入,哪怕结果不全对,或者画面不够美,至少可以看到,提示词的很多细节都在视频里有所体现。

总之,就是种积分没有白买、图片没有白找、提示词没有白写的感觉。

从 1.5 到 1.6,看似只有一个小数点,AI 视频的可控性是肉眼可见的提升了。AI 视频的比赛已经白热化了,但更重要的是,生成视频的时候,掀桌的冲动少了,创作的欲望强了,未来国产 AI 视频还能带来什么惊喜,值得期待


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1