实测国产视频生成大模型一个人“拍”一部剧？

测试vidu、清影、可灵、即梦，视频生成效果如开盲盒

作者／ IT时报记者沈毅斌‍‍‍‍

编辑／潘少颖孙妍

“AI生成不仅可以降低影片制作、场景搭建、妆造设计等成本和时间，也降低了入局门槛，一个人就可能拍完一部剧。”上海大学温哥华电影学院副院长陈晓达曾向《IT时报》记者讲述视频生成大模型对影视行业的影响。

今年七月，国产视频生成大模型迎来爆发式增长。生数科技打造的视频大模型Vidu上线；智谱AI正式发布视频生成大模型“清影”；快手可灵AI、抖音即梦AI纷纷正式上线网页端……

在火热的国产视频生成大模型赛道，究竟谁家效果更好，最有可能“取代”演员？《IT时报》记者选取Vidu、清影、可灵、即梦四款国产头部视频生成大模型，采用统一的电影写实设定和提示词进行实测。

整体情况

●Vidu：页面主体十分简洁，左侧为输入框，可选择文本输入或图片输入。左上角的“设置”有写实和动画两种生成风格，生成的视频时长为4秒和8秒。需要注意的是，8秒生成时长需要付费订阅。右侧为输出框，用户可以看到此前的生成记录，并进行重新编辑，让视频更加完善。

●清影：作为“智谱清言”的一项功能，清影位于“智能体”功能键中，同样可以选择文生视频和图生视频。界面分为四个部分，左侧是功能模块、历史记录和视频预览。右侧是控制台，相比Vidu，清影拥有更丰富的参数设定，不仅可以选择3D卡通、油画、电影感等视频风格，还能选择情感氛围和运镜方式，实现更好的画面效果。

●可灵：除了文本输入框，可灵还有更为详细的参数调整，用户可以调整生成模式、生成时长、视频比例。最具特色的是创意想象力和创意相关性调整，初始状态参数为0.5，越靠近1与文本关联性越强，反之越趋近0创意性越强。在运镜方面，可灵拥有10种运镜方式，同时还可以选择不希望出现的内容，精准控制生成内容。

●即梦：即梦界面具备生成模式、生成时长、视频比例等多种调整功能。在右侧预览部分，可对生成视频进行延长时长、对口型、补帧、提升分辨率等调整，但都属于会员功能。即梦与可灵的区别在于运镜调整，采用上下左右、旋转、变焦等方式调整参数，可以更精细地调度镜头，同时还能控制镜头运动速度，达到想要效果。

场景一：城市多场景

提示词：在未来城市中，人形机器人有的在清扫街道，有的在家为居民做早餐，还有的在商场担任导购。

测试结果：即梦>可灵>Vidu>清影

●Vidu：《IT时报》记者输入提示词后，Vidu仅用1分钟左右就生成了一条4秒的视频，是四款大模型中最快的。从生成效果来看，画面符合写实设定，一开始展示出在街道上行走的人形机器人，一秒后切换为室内场景，展示出做早餐和商场指引的场景，每个场景的衔接都是直接切换。尽管Vidu可以实现多场景生成，但与文本关联性并不密切。第一个提示词中的街道场景出现的人形机器人只是在行走，并未清扫街道。而后两个场景都是真人完成的动作，并未出现“主角”人形机器人。

●清影：在输入提示词后，清影需要等待5—8分钟才完成生成，尽管选择写实风格，但生成画面依旧偏向3D动画。一个镜头是人形机器人用吸尘器快速清扫着街道，主体清晰背景却十分模糊。随着画面的快速运动，场景也从街道转为室内，人形机器人开始做早餐，但无论是背景还是主体，都较为模糊，尤其是人形机器人，已经发生严重畸变。最后进入单一场景，画面才变得清晰，人形机器人站在镜头前操控着数字屏幕导购。清影虽然可以理解文字意思，且在场景衔接处加入了过渡和转场，但模糊难以避免，畸变情况较为严重。

●可灵：在场景生成中，可灵并没有生成多个画面，仅一个未来商业场景就将清扫街道和导购两个任务涵盖其中，多个人形机器人穿梭在街道，执行不同的任务。由于做早餐属于室内场景，在视频中没能体现出来。但可灵生成的场景写实感较强，更符合记者所设想的画面，清晰度和流畅度也是最好的。不过，在第三秒时，画面中的一个人形机器人突然分裂成两个，细节还需要改进。

●即梦：从整体画面来看，即梦生成的视频偏向3D动画，同样以一个场景进行展现。画面中心是多个人形机器人利用清洁工具清扫街道；右侧是一个人形机器人与人类对话，完成导购指引；旁边的早餐铺虽不起眼，但能看出有机器人在做早餐。即梦也是所有大模型中多场景能力展现最好的，但画面动作幅度不大，更像是动图的感觉。

场景二：人物动作运镜

提示词：两位武侠在竹林间比武，镜头由远及近逐渐推至人物面部。

测试结果：清影>Vidu>可灵>即梦

●Vidu：Vidu能理解并展现“竹林”与“武侠”两个关键词，同时保持较强的写实感，生成的人物贴近真人。但在动作处理方面，表现一般，最直观的是两位武侠在比武过程中，一会是拳脚比试，一会手中又出现宝剑。镜头也没有由远及近推拉运动，直到最后一帧突然出现一张人物脸部特写，十分突兀。无论是画面精细程度还是连贯性，远不及场景一。

●清影：在测试的四款大模型中，清影的人物和场景畸变最为严重，从视频开头到结尾，两位武侠的动作幅度虽大，但十分模糊，面部轮廓也没能呈现出来，直到最后特写定格才快速生成出一张清晰的人脸。但在镜头运动方面，清影做到了由远及近推拉运动。记者重新生成一条同样的视频并加上旋转镜头后，清影依旧可以展现很强的运镜效果。

●可灵：可灵的画面采用俯拍视角，竹林间，两位身穿盔甲的士兵扭打在一起，看不清面部，也没有理解“武侠”一词。人物动作以推搡为主，不及前两家大模型。运镜方面，可灵生成的视频完全没有镜头运动，从始至终都保持一个角度和景别，让视频观赏性大大减弱。

●即梦：即梦注重人物面部呈现，视频中两位武侠紧贴在一起，脸部始终清晰，长袍束腰的服饰也符合中国武侠的形象。但人物以静止为主，直到最后才做出扭头和挥手的动作，没有比武打斗动作，也没有镜头运动。

场景三：动物拟人

提示词：一只参加奥运会的熊猫，完成体操项目比赛。

测试结果：Vidu>可灵>即梦>清影

●Vidu：一只与《功夫熊猫》非常相似、身着奥运五环红色背心的熊猫站在鞍马上举起上臂欢呼，随后弯下腰跳下鞍马，这是Vidu在场景三中生成的画面。与之前不同的是，Vidu在此轮测试中采用3D卡通风格，更符合动物拟人形象。动作方面符合逻辑且没有出现重影、卡顿，是目前测试中效果最佳的视频。

●清影：用同一提示词生成两条视频后，清影没能呈现出清晰的熊猫形象。视频中位于鞍马上的熊猫一直背对用户，做出一个翻滚动作后，黑白配色便开始错乱，重影、模糊等问题明显，背景中的观众也会随着画面抖动。尽管只有6秒时长，但每一个画面都存在形变。

●可灵：可灵依旧保持写实风格，熊猫以动物形象呈现，没有拟人效果。它对着镜头缓慢爬行，随后伸个懒腰便坐了下来，整体动作行云流水，并未出现形变、重影，也符合熊猫的行为逻辑。不过，在体操表现上不足，除了一块蓝色的体操垫，便再无体操元素。虽然整体生成视频与提示词的关联性不强，但画面质量、动作流畅度在四款大模型中较好。

●即梦：画面单一、动作幅度小是即梦生成视频的特点，在场景三中，即梦依旧没能改变这一现象。画面中的熊猫保持动物形态用四足站在鞍马上，但在运动过程中，熊猫增加了一条腿，对熊猫的物理运动方式不能完全理解。

记者手记

生成效果如同“开盲盒”

动作流畅、符合逻辑、多种运镜等已经成为各家视频生成大模型重点宣传的功能，但从《IT时报》记者测试来看，视频生成效果与想象还有一定差距，每一条视频可能存在意想不到的错误，类似“开盲盒”。

对于新人用户来说，不需要输入非常复杂的提示词，大模型自动提示而生成的效果最佳。若输入提示词，也并非越复杂越好，而是需要拆分成一个个短句进行描述，单画面生成效果最佳。此外，生成之后还需要进行优化调整，以此来减少失误率，提升视频质量。

值得一提的是，视频生成需要花费较长时间，一条6秒的视频生成大约需要5分钟，且每次改进都需要重新生成。

尽管视频生成大模型降低了入局门槛，但想要实现一人“拍”一部剧，还需要花费大量时间和精力。

排版／季嘉颖

来源／《IT时报》公众号vittimes

E N D

实测国产视频生成大模型一个人“拍”一部剧？

推荐体验

相关资讯

漫画生成器｜AI绘画之一个人的时光

记住，你永远不是孤单的一个人

国产Sora来了！清华发布视频生成大模型“视界一粟YiSu”

爱一个人可能带来毁灭，但爱一个「机器人」不会

AI大模型将会改变每一个人的生活

近期资讯

如何拆解爆款视频（拆解全攻略）

敏捷永远比好更重要

礼来“试错”，来凯“富贵”

二手房企稳在望，近一半小区成交价涨了

徐荣就位，华润置地结束“总裁空窗期”？

北交所即将全面进入920新时代统一换装开启

一个月五家装企倒闭！“会爆很多雷，只是远远不像房地产这么大”

高速服务区商业，被忽视的消费新风口？

如何获取小程序的AppID和页面路径

新开的医馆养生馆，如何做好线下引流拓客？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

实测国产视频生成大模型 一个人“拍”一部剧？

实测国产视频生成大模型 一个人“拍”一部剧？

实测国产视频生成大模型一个人“拍”一部剧？

实测国产视频生成大模型一个人“拍”一部剧？