除了Sora,差距不算大。
作者|赵健 RAM 王珽
惊艳全球的 Sora 发布后,一个很自然的问题衍生出来——其他视频大模型,跟 Sora 还差多远?
为了更直观地展示视频效果,我们将 Sora 的提示词,分别给到 Runway(Gen-2) 、Pika(Pika 1.0)、爱诗科技(PixVerse)、HiDream.ai(Pixeling)四家 AI 视频公司的模型产品。其中,前两个为海外模型,后两个为国产模型。
需要特别强调的是,Sora 虽然的确表现出了“吊打”的效果,但 Sora 都是官方视频案例,背后可能经过了多次的提示词调整、风格调整等优化,而其他模型是在默认参数下一次生成的效果。
而且,Sora 目前仍然是“期货”,仅仅向 OpenAI 内部安全风控团队与极少数视觉艺术家、设计师与电影制作人员提供访问权限,普通用户无法用同样的提示词进行复现。
因此,本次视频生成对比,仅作为一个直观的展示供参考。我们能看到,如果不算 Sora ,国产视频模型的效果与 Runway 这样顶级的 AI公司的差距并没有很大。
据「甲子光年」了解,Pika、PixVerse 等模型将会在近期更新模型版本,届时将会有更好的表现。
另一方面,随着 OpenAI 公布技术路线(虽然没有细节),“踩着 OpenAI 过河”,视频领域的“百模大战”可能很快出现。
1.时长对比
提示词:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。(A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.)
Gen-2、Pika、PixVerse、Pixeling、Sora 对比视频
已关注
关注
重播分享赞
关闭
观看更多
更多
退出全屏
视频加载失败,请刷新页面再试
刷新
视频详情
Sora 可以一次生成 60s 的超长视频,而大部分模型通常只能生成 4s 。
在视频效果上,Gen-2 在分辨率、清晰度、景深上都有更好的表现,但视频中女性主体没有体现出“走路”的效果;Pika 的整体效果较差;PixVerse 人物面部有明显的瑕疵;Pixeling 人物衣着质感较差。
提示词:赛博朋克背景下机器人的生活故事。(The story of a robot’s life in a cyberpunk setting.)
Gen-2、Pika、PixVerse、Pixeling、Sora 对比视频
已关注
关注
重播分享赞
关闭
观看更多
更多
退出全屏
视频加载失败,请刷新页面再试
刷新
视频详情
在这个相对简单的提示词下,除了 Sora 之外,模型之间的效果相差不大。不确定 Sora 的多场景切换效果是否是时长增加之后带来的能力。
2.本文理解能力
提示词:逼真的特写视频,展示两艘海盗船在一杯咖啡内航行时互相争斗的情况。(Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.)
Gen-2、Pika、PixVerse、Pixeling、Sora 对比视频
已关注
关注
重播分享赞
关闭
观看更多
更多
退出全屏
视频加载失败,请刷新页面再试
刷新
视频详情
几个模型对于咖啡杯、船的画面配置各不相同,但只有 Gen-2 准确理解了“两艘船、一杯咖啡”,其他模型都理解成了“两杯”;Pika 甚至也没有体现咖啡杯的元素。
提示词:与中国龙一起庆祝中国农历新年的视频。(A Chinese Lunar New Year celebration video with Chinese Dragon.)
Gen-2、Pika、PixVerse、Pixeling、Sora 对比视频
已关注
关注
重播分享赞
关闭
观看更多
更多
退出全屏
视频加载失败,请刷新页面再试
刷新
视频详情
Gen-2、Pika 与 Pixeling 理解了“中国龙”,而 PixVerse 没有。Gen-2 还用人物与龙的互动体现“庆祝”元素。
3.3D一致性与运动效果
提示词:镜头跟随一辆带有黑色车顶行李架的白色老式SUV,它在陡峭的山坡上一条被松树环绕的陡峭土路上加速行驶,轮胎扬起灰尘,阳光照射在SUV上行驶土路,给整个场景投射出温暖的光芒。土路缓缓地蜿蜒延伸至远方,看不到其他汽车或车辆。道路两旁都是红杉树,零星散落着一片片绿意。从后面看,这辆车轻松地沿着曲线行驶,看起来就像是在崎岖的地形上行驶。土路周围是陡峭的丘陵和山脉,上面是清澈的蓝天和缕缕云彩。(The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.)
Gen-2、Pika、PixVerse、Pixeling、Sora 对比视频
已关注
关注
重播分享赞
关闭
观看更多
更多
退出全屏
视频加载失败,请刷新页面再试
刷新
视频详情
运动效果与时长息息相关,在 4s 时长的限制下很难有好的表现效果。不过从画面来看,国产模型 PixVerse 与 Pixeling效果还不错。
4.细节还原
提示词:一个 60 多岁、头发花白、留着胡须的男人的极端特写,他坐在巴黎的一家咖啡馆里,沉思着宇宙的历史,他的目光聚焦在银幕外行走的人们身上。他几乎一动不动地坐着,穿着一件羊毛大衣西装外套,搭配一件纽扣衬衫,戴着棕色贝雷帽,戴着眼镜,一副非常教授的样子,最后他露出了一个微妙的闭嘴微笑,好像他发现了生命之谜的答案,灯光非常电影化,金色的光芒和巴黎街道和城市的背景,景深,电影级 35 毫米胶片。(An extreme close-up of an gray-haired man with a beard in his 60s, he is deep in thought pondering the history of the universe as he sits at a cafe in Paris, his eyes focus on people offscreen as they walk as he sits mostly motionless, he is dressed in a wool coat suit coat with a button-down shirt , he wears a brown beret and glasses and has a very professorial appearance, and the end he offers a subtle closed-mouth smile as if he found the answer to the mystery of life, the lighting is very cinematic with the golden light and the Parisian streets and city in the background, depth of field, cinematic 35mm film.)
Gen-2、Pika、PixVerse、Pixeling、Sora 对比视频
已关注
关注
重播分享赞
关闭
观看更多
更多
退出全屏
视频加载失败,请刷新页面再试
刷新
视频详情
老人的还原需要满足“穿着一件羊毛大衣西装外套,搭配一件纽扣衬衫,戴着棕色贝雷帽,戴着眼镜”,几个模型都有部分细节缺失;在“35mm胶片电影”的维度上,几个模型的效果都不错,Pika的效果稍差。
5.图片生成视频
提示词:一只戴着贝雷帽和黑色高领毛衣的柴犬。(A Shiba Inu dog wearing a beret and black turtleneck.)
Gen-2、Pika、PixVerse、Pixeling、Sora 对比视频
已关注
关注
重播分享赞
关闭
观看更多
更多
退出全屏
视频加载失败,请刷新页面再试
刷新
视频详情
基于一张相对简单的图像生成视频,各个模型的效果非常接近。
提示词:在一座华丽的历史大厅里,巨大的浪潮达到顶峰并开始崩塌。两名冲浪者抓住时机,熟练地驾驭海浪。(In an ornate, historical hall, a massive tidal wave peaks and begins to crash. Two surfers, seizing the moment, skillfully navigate the face of the wave.)
Gen-2、Pika、PixVerse、Pixeling、Sora 对比视频
已关注
关注
重播分享赞
关闭
观看更多
更多
退出全屏
视频加载失败,请刷新页面再试
刷新
视频详情
只有 Pixeling 体现出了“巨大的浪潮达到顶峰并开始崩塌”的效果。
6.数学理解与物理理解是通病
提示词:五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐,周围都是草。幼崽们又跑又跳,互相追逐、互相咬咬,玩耍着。(Five gray wolf pups frolicking and chasing each other around a remote gravel road, surrounded by grass. The pups run and leap, chasing each other, and nipping at each other, playing.)
Gen-2、Pika、PixVerse、Pixeling、Sora 对比视频
已关注
关注
重播分享赞
关闭
观看更多
更多
退出全屏
视频加载失败,请刷新页面再试
刷新
视频详情
可以看到,包括 Sora 在内的各个模型,都无法准确还原“五只灰狼”的数量,看来数字与数学是这一类视频模型的通病。
提示词:考古学家在沙漠中发现了一把普通的塑料椅子,他们小心翼翼地挖掘并除尘。(Archeologists discover a generic plastic chair in the desert, excavating and dusting it with great care.)
Gen-2、Pika、PixVerse、Pixeling、Sora 对比视频
已关注
关注
重播分享赞
关闭
观看更多
更多
退出全屏
视频加载失败,请刷新页面再试
刷新
视频详情
每个模型都无法理解“考古学家考古”这件事。除了 Pika 之外,其他三个模型只生成了椅子,而丢失了考古学家。
对于 OpenAI 世界模拟器的愿景,视频生成模型还需要进一步理解物理世界的规律才能做到。而现有技术路线能否实现,目前仍然存在争议。
再次强调,Sora 的官方视频案例背后可能经过了多次的提示词调整、风格调整等优化,而其他模型是在默认参数下一次生成的效果。而且,Sora 目前仍然是“期货”。
本次视频生成效果对比仅作为一个直观的展示供参考。其他视频模型也将很快迎来更新。
(封面图来源:Sora封面)
END.