抖快和清华系“国产Sora”对比实测：细节及动态控制不足，物理学又不存在了？

作者：搜狐科技发布时间：2024-08-23

清华 Sora

（图片来自AI生成视频截图）

出品 | 搜狐科技

作者 | 梁昌均

编辑 | 杨锦

半年前，OpenAI公布了AI生成视频产品Sora的演示视频，一经推出引发不少赞叹。如今，Sora依然是个期货，而在国内，AI生成视频已成为最卷的赛道之一。

从抖音、快手，到清华系的智谱AI、生数科技，它们在短短几个月迅速出手，还不像Sora那般卖关子，迅速从内测走向全球发布。

从演示视频来看，这些产品虽然时长普遍不及Sora的一分钟，但不少人都感叹内容效果可媲美Sora，一些影视从业者还用这些产品做出了酷炫的AI科幻大片。

这些“国产版Sora”效果到底如何？搜狐科技就此针对抖音即梦、快手可灵、智谱清影、生数Vidu进行了横向对比测评。

一、即梦最具产品思维

目前，这四款产品都有文生视频和图生视频两种形式，部分产品还在研发类似Sora的视频生成视频功能，但尚未对外开放。

从基础功能来看，Sora可最长生成60秒的视频，即梦则有3秒、6秒、9秒和12秒可选，可灵支持5秒和10秒，清影为6秒，Vidu支持4秒和8秒的视频生成。

即梦和可灵的AI生成视频界面

即梦还能选择运镜控制方式（移动、旋转、摇镜、变焦等12种类型和小中大三个幅度）、运动速度（慢速、适中、快速）、模式选择（标准模式、流畅模式）以及视频比例（共计6种），可以说给用户提供了最多的选择，最具产品思维。

相对来说，可灵在时长、视频比例、运镜控制等方面的选择较少，但特色是可以规避不希望呈现的内容，清影和Vidu则整体更加简洁，但清影可以在线添加背景音乐。

清影和Vidu的AI生成视频界面

为更加直观的对比，搜狐科技选择Sora此前受到较多关注的视频所采用的提示词和图片，来看看“国产Sora”们的表现如何（即梦、可灵、清影、Vidu的评测时长分别为12秒、5秒、6秒、4秒）。

这几款产品生成的视频均为一次性生成。Sora发布的视频整体效果不错，但可能经过了多次调整、优化，因此Sora生成的视频仅作为参考。

二、短文本生图：即梦生成人物动作变形，Sora的问题也难避免

提示词1：一个中国农历新年庆祝视频，里面有中国龙

中国农历新年、中国龙都是中国元素，它们的理解能力如何？

即梦将场景放在了古代，生成的两条龙神态表现较好，还出现了红灯笼等中国喜庆元素，但人物比较抽象。

可灵和Vidu的风格比较写实，生成的龙像是套了个皮的巨大娃娃，可灵还缺乏喜庆氛围，Vidu则有人与表演的互动，但生成的龙似乎多了很多爪子。

清影的喜庆氛围表现不错，还有烟花，但龙舞动的过程不太流畅，且画面还会糊。

提示词2：一个男人吃汉堡并在汉堡上留下咬痕

对于这个以人物为主体的提示词，即梦最初的人物表情不错，但随着人咬汉堡并开始咀嚼，嘴部出现了特别严重的鬼畜变形（视频慎点），且出现多出手指的情况。

可灵视频主体聚焦放在嘴咬汉堡的过程，咬的动作、手指等细节表现较好。

清影和Vidu则均没能体现出人咬汉堡的过程，对提示词的还原度较低。

提示词3：两艘海盗船在一杯咖啡中航行时相互争斗的逼真特写视频

即梦的视频缺少对部分提示词的理解，没有体现出是在一杯咖啡中，也没有相互争斗的感觉。

可灵生成的两只船都在咖啡杯边缘，对提示词把握不到位。

清影的视频看着挺像一回事，船在行驶过程中产生水波，咖啡还冒着热气，细节表现较好。

Vidu的视频视角更加广阔，缺乏争斗感觉。

提示词4：含有冰块的红色果汁从杯子里泼溅在桌子上

这个是Sora传播较广的翻车视频，由于不能准确模拟玻璃破碎时和液体之间相互作用的过程，因此很多观点认为Sora并不能理解物理世界。

“国产Sora”也会犯同样的错，冰块、红色果汁等内容都能体现，但基本都没能体现出泼溅的正确物理过程。

即梦的视频美感不错，液体受到外部冲击后有泼溅的感觉，但冰块腾空跃起似乎超越了力学原理，杯中的冰块凭空生成。

可灵则完全没有体现出泼溅的过程，清影和Vidu视频中的液体和冰块则直接从杯身或杯底穿过，物理学又不存在了。

总结：短文本提示词较少，对AI生成视频产品的要求相对较低，更能生成符合期望的视频。但从前述测试来看，这些产品无法每次都完全体现出提示词内容，稳定性较差，清影在生成提示词4时还多次出现异常情况。

即梦、清影部分场景细节表现较好，即梦对人物动作的控制能力较弱，且Sora出现的物理问题它们也难以避免。

三、长文本生图：即梦生成的大象出现了5条腿

提示词5：几只巨大的猛犸象正在穿越雪地，它们长长的毛皮在风中轻轻飘动，远处是覆盖着雪的树木和壮观的雪山。下午的阳光透过薄云洒下温暖的光晕，低角度的镜头令人惊叹地捕捉到了这些大型毛茸茸的动物，展现出了美丽的摄影效果和景深。

即梦的视频整体美感不错，对猛犸象的神态刻画比较生动，但行走过程不是特别流畅，间歇性地出现了五条腿。

可灵生成的是没有象牙的猛犸象，且没有毛茸茸的感觉，行走过程和光影细节表现完美。

清影则生成了一群猛犸象，象看起来比较抽象，细节表现不足，运动感较强。

Vidu只生成了两只猛犸象，行走和光影变化体现较好。

提示词6：一位时尚女士走在东京的街头，周围是温暖的霓虹灯光和充满活力的城市标识。她穿着一件黑色皮夹克，一条长红裙，脚踩黑色靴子，手提一只黑色手袋。她戴着太阳镜，涂着红色口红，自信而随意地走着。街道潮湿且反光，彩色灯光在地面上形成了镜面效果，许多行人来来往往。

即梦视频整体色彩感观不错，但女士脸部和手部在摇动过程中出现了变形，且没有体现出走的内容。

可灵视频中的女士嘴部和手部在行走过程中有些变形，但行走过程比较自然。

清影生成的人物偏向卡通，手提黑包的细节表现较差。

Vidu视频的色彩表现不够鲜明，人物行走比较自然，但手在移动过程中出现变形。

提示词7：镜头跟随一辆带有黑色车顶行李架的白色复古SUV，它在陡峭的山坡上一条被松树环绕的陡峭土路上加速行驶，轮胎扬起灰尘，阳光照射在SUV上，投射出温暖的光芒。土路缓缓地蜿蜒延伸至远方，看不到其他汽车或车辆。道路两旁都是红杉树，点缀着一片片绿色植物。从后面看，这辆车轻松地沿着曲线行驶，看起来就像是在崎岖的地形上行驶。土路周围是陡峭的丘陵和山脉，上面是清澈的蓝天和缕缕云彩。

即梦的视频镜头是在汽车前面而不是后面，也没有体现出延伸到远处的蜿蜒土路，提示词理解不够。

可灵整体表现较好，稍显不足的是镜头保持不动，土路不够陡峭。

清影的视频则像加了一层滤镜，画面偶尔有些模糊。

Vidu整体比较写实，但SUV凭空往后倒再向前行驶，可能是出现了幻觉。

总结：长文本涉及的元素比较多，需要生成更为丰富的场景，对AI视频产品理解文本的要求更高，更加考验视频的一致性和稳定性，即人物角色的一致性、场景风格的一致性，同时生成的画面要稳定，呈现合理的线性变化，尤其是在动态场景中，不会出现骤变的人物角色或突兀的场景切换。

从前述评测来看，这四款产品基本不会遗漏核心元素，但会出现理解偏差或变形；即梦整体美感较好，细节表现不足，清影、Vidu也有类似问题，可灵对人物、物体的动态过程表现较好。

四、图片生图：部分场景可媲美Sora，动态场景表现较差

图片1：一只戴着贝雷帽、穿着黑色高领毛衣的柴犬生成视频（图片由DALL-E生成）

即梦对柴犬摆头、挑眉、张嘴吐舌头等进行了动态展现，且前后没有出现变形，保持了一致性。

可灵主要是镜头的变化，柴犬本身无动态变化。清影扩张了柴犬低头、眨眼、张嘴的动作，过程中无明显变形。

Vidu除了表现柴犬眨眼，还变化镜头生成了抬头的动作，一致性表现较好。

从这个示例看，除了可灵，其它三款产品的表现可以媲美Sora，甚至更好。

图片2：在一个华丽的历史大厅里，一股巨大的浪潮达到顶峰并开始崩散，两个冲浪者抓住时机，巧妙地在海浪表面滑行（图片由DALL-E生成）

即梦展现了浪潮达到顶峰并崩散的过程，但其中一个冲浪者凭空出现又凭空消失。

可灵和清影的视频有种慢镜头的感觉，冲浪者没有明显的滑行动作。

Vidu对图片的体现不完整，冲浪者的出现和动作有些莫名其妙。

总结：图片生成视频主要考验的是AI对图片的理解能力以及“想象”拓展能力。从这两个评测来看，对于相对静态的图片，国内产品生成的视频基本可以和Sora媲美，但对动态内容的生成控制能力较弱。

五、评测总结

此次评测显示出，如何提高AI生成视频的一致性、稳定性、可控性，是目前所有产品都要持续解决的问题，而业内也在通过首尾帧控制、描述词优化，以及研发有关算法等解决。

但总体来看，目前还没有谁是全能冠军，部分产品还因时长过短更像动图，难以更好体现视频效果。

此外，视频比文本生成的成本更高，所需要的算力大幅提升，此次评测所有视频都需等待2-5分钟甚至更长时间。

未来要想规模应用，还需要在时长、内容效果上继续努力，而如何降低成本、提高大众的可用性就显得非常重要。

看了这些视频，你觉得谁表现最好？会选择用哪款产品？欢迎评论区留言！

近期资讯

宽博地铁交通条形屏突然失灵，可能的原因有哪些？

# 地铁交通条形屏在地铁交通系统中，地铁交通条形屏作为重要的信息显示工具，其稳定性和可靠性至关重要。然而，有时我们可能会遇到宽博地铁交通条形屏失灵无反应的情况，这时需要迅速采取措施进行排查和解决。首先，检查地铁交通条形屏的电源连接是否稳定。电源不稳或供电不足是导致屏幕失灵的常见原因之一。确保电源插头和连接线牢固连接，没有松动或损坏现象。同时，使用万用表测量电源电压，确保电压在设备规定的范围内。其次，检查信号线是否连接正常。信号线连接不良或损坏也可能导致地铁交通条形屏无法接收信号，从而出现失灵现象。确

宽博显示屏厂家 2024-12-27

gb28181视频监控系统/视频汇聚融合平台Liveweb视频云解决方案

GB28181视频监控国标平台Liveweb是基于国标GB28181协议、支持多路设备同时接入的视频监控/视频云服务平台，支持对多平台、多终端分发RTSP、RTMP、FLV、HLS、WebRTC等格式的视频流。国标GB28181平台Liveweb可提供视频直播监控、云端录像、云存储、检索回放、智能告警、语音对讲、平台级联等视频能力与服务，可应用在多样化场景中。 [图片] 可扩展性该系统采用模块化结构设计，可轻松进行扩容以满足当前和未来的需求。系统支持动态添加存储节点，而无需停止服务，最大容量受元数据内存

好游云联 2024-12-27

俊泰行 2024-12-27

抖快和清华系“国产Sora”对比实测：细节及动态控制不足，物理学又不存在了？

一、即梦最具产品思维

二、短文本生图：即梦生成人物动作变形，Sora的问题也难避免

三、长文本生图：即梦生成的大象出现了5条腿

四、图片生图：部分场景可媲美Sora，动态场景表现较差

五、评测总结

推荐体验

相关资讯

它又“杀疯了”！网友调侃：物理学不存在了

Sora来了，现实不存在了？

从文生视频模型Sora说起：现实不存在了，还是我们不存在了？

Sora降临，银行不存在了？ | 观点

AIGC时代，新闻不存在了？

近期资讯

宽博地铁交通条形屏突然失灵，可能的原因有哪些？

gb28181视频监控系统/视频汇聚融合平台Liveweb视频云解决方案

60W 28KHZ-40KHZ 超声波清洗换能器

A10技术的应用与未来发展趋势分析

当AI遇见大数据：决策优化的下一个风口

洗内衣裤的洗衣机哪个品牌好？精选排名第一的迷你洗衣机

28KHZ-40KHZ超声波点焊接换能器

从内容玄学到“标签科学”：如何用“内容标签七步法”让ROI翻倍？

蓝牙音箱选哪个性价比好？2024推荐7款爆款,音质出众不踩雷!

Rim Drive电动无轴推进系统 | 电动游船应用

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响