清华系Sora全球上线！注册即用不排队，重点支持动漫风，官方：角色一致性下功夫了

作者：量子位发布时间：2024-08-02

清华 Sora AI视频

衡宇发自凹非寺

量子位 | 公众号 QbitAI

七月份的尾巴，又有国产AI视频开放给大家免费玩了！

Vidu，来自清华系多模态大模型公司生数科技，清华朱军带队的那家。

今天起，Vidu全面开放文/图生视频两项功能，生成成果时长可自由选择4s/8s，分辨率最高可达1080P。

官方号称“实现业界最快实测推理速度”，生成一段4s视频片段只需30s。

画个重点，「全面开放」的意思是，大家不用排队，注册即可获赠每月80积分（更多积分需要付费订阅，但目前也够玩了）。

△看手，好像效果还行哈

其实在今年4月，生数的Vidu就已经对外亮相过，当时支持一键生成16秒视频。

这次全量开放，不同点也是亮点不在时长上，而是新增了角色一致性、动漫风格、文字与特效画面生成功能。

狠狠叹一口气，说句实话，有点又惊喜又麻木的。

这段时间，从快手可灵，到爱诗科技，再到智谱清影……AI视频频繁对公众开放，被最新消息和不同效果连番轰炸，有点麻了。

靠文字描述，真的已经很难感知到国产AI视频的水平到了什么地步。

还是得上视频，看效果。

Vidu趣味向视频效果展示

先看看官方和网友们，都用Vidu搞了些什么有趣的东西。

（这里更多是图生视频展示）

输入一张情侣对视图：

输入prompt：The two people in the photo are looking at each other（小情侣一眼万年）。

Vidu给咱来一个古早味台湾偶像剧的经典运镜。

输入大家都很熟悉的文物“马踏飞燕”：

Vidu让它分分钟从博物馆展柜里逃跑了：

意难平CP，直接合照变单人秀——

输入双J的这张：

你将得到：

最后，生数科技派出了自家1996年出生的CTO鲍凡：

输入prompt：一个帅哥在变身成为奥特曼，画出正在变身的过程，从一个普通人变成完整的奥特曼。

就能得到：

两项新功能：角色一致性&动漫风格

以此次开放的“文生视频”和“图生视频”两项基础功能打底，Vidu此次有两个亮点功能。

角色一致性
动漫风格

角色一致性（Charactor To Video）

在“图生视频”板块中，Vidu上新了角色一致性（Charactor To Video）。

目前，上传图片进行图生视频时，既可以把输入图作为视频片段首帧，也可以仅让生成结果参考输入图里的角色。

前者实现基于首帧画面的连续生成，是最常见的图生视频功能。

后者的实现则基于角色一致性，详细地说，就是用户可上传像图或者自定义的角色图，然后指定该角色在任意场景中做出任意动作。

官方demo是让AI生成领域的老演员——马斯克出个场。

输入图，并选择“参考人物角色”：

如果输入prompt：Elon Musk is wearing a spacesuit in the spacecraft（老马在宇宙飞船上穿着宇航服）。

则生成：

如果输入prompt：Elon Musk wearing Iron Man armor, with a city night scene in the background（老马身穿钢铁侠盔甲，背景是城市夜景）。

则生成：

角色一致性，既是为了确保角色形象、面部表情和动作在不同场景中的连贯性，更是为了简化视频制作流程，用户不用为每个场景单独设计和调整角色形象。

——这也是近期开放的AI视频工具的一大趋势。

动漫风格

目前国内外开放的AI视频工具，更多是在写实风上发力；Vidu除了能够生成写实风格，还聚焦了动漫风格视频片段的生成。

也算是生数科技在Vidu上的小巧思吧。

不过，支持动漫风格意味着有几个难点：

保持风格一致性：始终呈现动漫风
保持画面稳定性：避免画面跳画、崩坏or动态幅度太小

量子位上手浅试了一下。

喂它一张AI生成的动漫风猫娘：

把它作为视频片段的起始帧，然后输入了很小学生作文式的简单提示词（鉴于官方给的prompt是英文，我们在这特意尝试了中文提示词）。

可以看到，目前生成一个视频片段需要消耗4点积分。

生成效果时长4s，猫娘确实嘴角弯弯，但没眯眼睛。

片段还给加了个日语字幕，虽然似乎好像是乱码=。=

目前，生数没有放出此次开放Vidu关于动漫风格的更多技术资料，咱们就看看官方给的demo吧。

原图1，我愿称之为白衣蓝发的花丛中少年（？）：

Vidu图生视频效果，时长3s：

原图2，可爱双马尾粉色lolita裙美少女：

Vidu图生视频效果，时长3s：

还有啥亮点？

除了上面描述的两个功能，开放给大家敞开玩的Vidu，比起四月犹抱琵琶半遮面的版本，还有哪些提升？

可以从技术和效果两方面来感知。

技术方面，Vidu在推理速度上有显著提升。

Vidu的生成4s视频片段的时间，目前控制在30s。这个速度比业内最快水平的Gen-3（1分钟）还要再快一倍。

对用户来说，实测推理速度是诸多使用体验中，最能直观感受到的。

更短的处理时间不仅提升使用感，还意味着能在同样的时间段内处理更多的用户需求。

关于“30s”这一点，大家可以直接去Vidu官网感受一下，看看生成时长是不是真的控制得这么好，毕竟生数说，欢迎大家掐表实测（手动狗头）。

效果方面，Vidu提出了自己“理解力高、画面更美、动幅更大”。

目前，业界对类Sora视频模型的评价主要围绕三大核心维度：

语义理解准确性、画面美观性、主体动态的一致性。

Vidu也在这三方面上尽力做平衡。

首先，是强语义理解能力，能够理解词汇、镜头语言等。

Vidu能够准确理解和生成提示词中的词汇，比如字母、数字等，并且能够生成文字特效。

对于第一人称、延时摄影等镜头语言，Vidu也能准确理解和表达。

用户只需细化提示词，即可大幅提升视频的可控性。

尤其在涉及复杂场景的视频中，Vidu能够将运动主体与场景做较好分离。

譬如将前后景别分离开，控制画面中非重点物体的动态较少，画面主体的动态做较好的生成，有效提升画面的真实感。

其次，是大动态幅度大，对指定动作理解准确，主体运动幅度大。

大幅度、精准的动作有助于更好地表现视频情节和人物情绪。

动作幅度一旦变大，画面容易崩坏，因此一些模型为保证流畅性，会牺牲动幅。

来看Vidu让小女孩给你比心哦：

再者是好的画面美观性好，生数放话Vidu有“电影级质感和影视级特效生成”。

具体来说，Vidu在构图、叙事、光影等方面追求画面的高质感。

可以对应生成科幻、悬疑、西部或浪漫等类型的电影风格片段。

来看看西部电影风：

此外，Vidu还能生成影视级特效画面。

如弥漫的烟雾、炫目的炫光效果等，甚至是细致入微的皮肤纹理、材质特效等后期CG特效。

One More Thing

OKK，看了这么多视频，相信大家对生数Vidu的效果和速度有一个大概的感知了。

今天上午十点，Vidu已经全面开放，大家只需要去注册一下就能使用。

欢迎来评论区反馈自个儿的真实上手体验如何！

最后，因为最近开放的AI视频工具太多太多，量子位计划对它们做个综合横评。

如果有不错的prompt点子，或者发现集体翻车情况的朋友，欢迎来跟量子位聊一聊～

—联系作者—

— 完—

量子位年度AI主题策划正在征集中！

欢迎投稿专题一千零一个AI应用，365行AI落地方案

或与我们分享你在寻找的AI产品，或发现的AI新动向

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

金融界2024年12月28日消息，国家知识产权局信息显示，江苏华创线缆有限公司取得一项名为“一种BTTZ防火电缆填充用氧化镁粉的干燥装置”的专利，授权公告号CN222211148U，申请日期为2024年4月。

金融界 2024-12-28

清华系Sora全球上线！注册即用不排队，重点支持动漫风，官方：角色一致性下功夫了

推荐体验

相关资讯

midjourney保姆级教程：新功能cref（角色参考/角色一致/ip一致性）

Midjourney零基础设计角色一致性

Midjourney 实现角色一致性的新方法

评测：Midjourney如何保持角色人物的一致性

Midjourney保持角色一致性的终极解决方案

近期资讯

常州吉邦药化机械取得卧式圆盘连续干燥冷却机专利，在机内完成干燥后即可冷却无需额外设备，提高效率节省场地空间

广州天幸机电取得用于PCB板水平电镀循环节水专利，降低水资源损耗

在OPPO手机上轻松截取长图的详细步骤与注意事项指南

华为手机截屏功能详解：多样化操作与实用技巧分享

海信中央空调评测：性能优越，适合家庭用户的理想选择

神州心辰取得一种可再生能源恒温干燥炉专利，在利用气流驱动时可减少其他能源消耗

曼恩斯特取得单段烘干单元 NMP 回收装置及烘干系统专利，适配性更高

解决手机信号不好的实用方法与技巧，提升沟通体验

解决电脑数字键盘锁定问题的简单方法与技巧

江苏华创线缆取得BTTZ防火电缆填充用氧化镁粉干燥装置专利，干燥更均匀效果更好

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响