清华团队搞出来的国产Sora，还真有点东西。。。

作者：差评XPIN发布时间：2024-08-04

清华 Sora 提示词

最近，国内的视频 AI 们，全都扎堆上线了。。。

这不，智谱的清影 AI 上线还没几天，国内另外一个视频 AI 界的大神，Vidu 也跳出来了，不用排队，免费就能用。

大伙儿应该也都知道，之前 Vidu 一出来，就在小范围火了一波，当时世超还专门给它盘了一篇文章。

光是来头就能唬住不少人， Vidu 背靠的是清华系团队，他们早在 Sora 之前，就抢先发了一篇把扩散模型和 Transformer 模型融合在一起（ Sora 用的也是这个思路）的论文。

而且因为清华小分队早发了两个月，当年的计算机视觉顶会CVPR 2023还以“缺乏创新”的由头，拒了 Sora 的 DiT 论文。

虽说最后， Vidu 的宣传视频出来得晚了些，但效果在彼时的一堆视频 AI 里，还是很扎眼的存在，各种视角、各种场景，好像都能 handle 住。

所以这次它宣布开放使用后，世超在第一时间就上手了一波。

到底有没有宣传视频里那么厉害，跟咱看看就知道了。

先来试试 Vidu 文字生成视频的效果，这一回合世超拉来了体感还不错的可灵 AI 来做对比。

第一招，我们来测测它们各自对提示词的理解程度，看能不能把所有要素都展示出来。

提示词：

写实风格，镜头慢慢推进，在一个雨天，一对情侣坐在餐厅靠窗的位置吃饭。

Vidu 这边在生成的时候，会贴心给一些影视方面的小百科，而且速度也挺麻溜。

这颇有电影感的画面，雨天、情侣等要素也挺齐全，唯一的缺点没get到提示词里的“吃饭”

轮到老将可灵 AI 这边，没想到一上来就有点翻车了，照理说它应该挺擅长吃东西的画面，但这次不知道咋了，两个人嘴巴全都变形了，不过要素倒还挺全。

紧接着，我们又同时给可灵和 Vidu 喂了一组超现实的提示词，考验下视频 AI 厂商们都爱宣传的“电影感”。

让它们生成一组“末日时，一名战士破土而出”的画面。

Vidu 生成的效果是这样的，只能说中规中矩，画面的质感一般般，而且也没给战士一个露脸的机会。

反观可灵 AI 这边，对场景的处理则更加细腻一些，不仅画面的质感、清晰度上去了，连走路会扬起灰尘这种细节，它都能捕捉到。

除了常规风格外， Vidu 这次还整出来一个专门的“动画风格”，据说效果还不错。那接下来，我们就用这个风格来给它和可灵搭个擂台。

提示词：

动漫电影风格，从侧面拍摄，镜头聚焦在面部，夜晚，一个长发女人坐在公交车靠窗的位置，眼睛望向窗外不断变化的街景，忽明忽暗的光线打在她的脸上，画面弥漫着孤独感。

Vidu 这边确实也没让咱失望，这女主角真有点日漫那味了，而且咱也能透过窗户，看到外面一闪而过的景象。

这波可灵 AI 又开始掉链子了，提示词里面的“动漫电影风格”，它直接给忽略掉了，而且公交车虽然在往前走，但外面的街景的变化有点不太明显。。。

既然是动漫风格，那肯定少不了测试想象力的环节，考考它们各自是如何处理现实不存在的场景的，比如“小男孩突然化身大橘猫”。

提示词：

宫崎骏画风，一个可爱的小男孩正在跑步，跑着跑着突然变身成一只可爱的大橘猫

有一说一， Vidu 的效果确实震撼到是世超了，抛开画质这个老毛病，整段视频基本看不出什么破绽，变身的过程也无比丝滑。

至于可灵 AI 嘛，可能类似的场景是真撞到它的枪口上了，看生成的视频，可能它连提示词本身都没太理解。

而且，世超在试的时候发现，这次的 Vidu 还有市面上能用视频 AI ，都有一个通病，那就是不能理解物理世界规律。

像是世超让 Vidu 和可灵生成一段“两只猫咪打乒乓球”的视频，那球可以说是满天乱飞，而且看球也都不像是乒乓球的样子。。。

有意思的是，世超还用 Vidu 之前宣传里的提示词，原封不动地喂给了它，结果出来的视频，看得人背后是直冒冷气。

不过整体来看， Vidu 的效果还算是可圈可点，最起码在动漫，还有一些涉及到想象力的画面中，表现得还算不错。

除了能文生视频外， Vidu 这波也还新增了图生视频的功能，世超发现，这简直就是恶搞人士的福音（手动狗头）。

随便上传一个表情包上去， Vidu 能立马让它动起来，看着效果也都还不错。

而且我们还可以自己选，是让上传的图片作为第一帧，还是只参考就行了。

就比如世超上传的一张扎克伯格的图片给 Vidu 参考，再补充点提示词，就可以假装小扎已经站在拳击台上，准备迎战马斯克了。

只不过这人脸有脸参考不到位，就只有上半张脸像小扎。。。

上传一张马斯克的照片，也能提前帮他实现太空梦。。。

总之， Vidu 就跟市面上一众能用的视频 AI 差不多，可以生成效果好的视频，有的视频不仔细看，几乎就看不出 AI 的痕迹。

但它的缺点也很明显，不够稳定，视频做不长，这也是这一类 AI 面临的通病了。像是 Vidu 免费用户只能体验到 4s 的视频，就算氪了每月 8 刀的金，最长也只有 8s 。

不过这也算是视频类AI的商业化初尝试了，毕竟训练和推理的成本就摆在那里，像是 Adobe 之前，买了 100个用来训练的视频片段，平均一分钟得花两美元。

而收钱，多少也能帮前期优化、提升模型，分担一点经济上的压力。。。

当然 Vidu 背后的公司生数科技，也不只把所有砝码都压在了视频 AI 上。他们旗下还有专门面向 B 端的各种多模态模型，涵盖了文字、图片和 3D 模型等，游戏制作、影视后期等都是未来的商业化场景。

之前他们就靠着图片和 3D 模型，攒了好几亿的家底，而且就在上个月月初，生数科技又完成了数亿元的 Pre-A 轮融资，百度也参与领投了。

总的来说，视频 AI 领域是越来越热闹，甚至已经有点当初百模大战的意味了。可以预见的是，未来这些厂商们还会在 AI 视频长度、质量上不断加码。

作为用户的世超，当然也希望厂商们都卷起来。

对了，说句题外话，当初挑起这场“战争”的 Sora ，好像好久都没新消息了。。。

撰文：松鼠

编辑：江江

美编：萱萱

图片、资料来源：

生数科技，Vidu，可灵

近期资讯

利润暴跌、内卷严重，“卖身”后的维达能否重拾高增长？

短期重拾高增长恐并非易事。

DoNews 2024-12-31

马斯克用外籍临时工替代被裁美国人，大众汽车子公司发生大规模数据泄漏｜海外日报

12 月 31 日 EV Focus 海外日报

EV Focus 日报 2024-12-31

小米年薪千万挖来一名小女孩，为何雷军认为太值了？

罗福莉的加入是小米在AI大模型领域的一项重要战略投资。

BT财经 2024-12-31

情绪价值给满，年轻人疯狂下单

这是一个鸡汤失效的时代，这是一个往血液里注射浓汤宝的时代。

IC实验室 2024-12-31

合成数据的前景与风险

AI 是否有可能只使用另一个 AI 生成的数据进行训练？

AI前线 2024-12-31

出海速递｜旷视、吉利将展开智能驾驶合作，或会成立一家新合资公司/特斯拉上海储能超级工厂开始试生产

查阅更多出海好文章，请移步出海官网 letschuhai.com。

36氪出海 2024-12-31

2024年了，电动车还扛不住零下20度？

不断内卷的新能源汽车，缺的是没有明显短板、从用户出发、综合体验最佳的好产品。

36氪品牌 2024-12-31

飞行器公司Volocopter申请破产：吉利与奔驰是股东，或为拿证上市

分析认为，Volocopter进入破产程序更多旨在完成重组，完成飞行器“拿证上市”的最后冲刺。

雷帝触网 2024-12-31

被推着上市的荣耀

价值等待兑现

光子星球 2024-12-31

打工人拒绝预制菜，网友：我配拥有现炒吗？

现炒回归的背后，本质还是消费者怀念那滋啦滋啦的锅气，越来越多的餐厅使用预制让传统美食慢慢“变味”，这或许是一种纠偏式的回归。

易方寒 2024-12-31

清华团队搞出来的国产Sora，还真有点东西。。。

推荐体验

相关资讯

为什么ChatGPT不是中国搞出来的？

大片级AIGC科幻短剧，还真让《三星堆：未来启示录》搞出来了

AI绘画，AI搞出来的房间设计……2024年2月4日

AI绘画，AI审美搞出来的图案设计……2024年1月31日

全网批发马斯克「毒鸡汤」的神器，竟是幼儿园小朋友搞出来的？

近期资讯

利润暴跌、内卷严重，“卖身”后的维达能否重拾高增长？

马斯克用外籍临时工替代被裁美国人，大众汽车子公司发生大规模数据泄漏｜海外日报

小米年薪千万挖来一名小女孩，为何雷军认为太值了？

情绪价值给满，年轻人疯狂下单

合成数据的前景与风险

出海速递｜旷视、吉利将展开智能驾驶合作，或会成立一家新合资公司/特斯拉上海储能超级工厂开始试生产

2024年了，电动车还扛不住零下20度？

飞行器公司Volocopter申请破产：吉利与奔驰是股东，或为拿证上市

被推着上市的荣耀

打工人拒绝预制菜，网友：我配拥有现炒吗？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响