微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

作者：量子位发布时间：2024-04-19

微软数字人 Sora

微软发布一张图生成数字人技术VASA-1，网友看过直呼“炸裂级效果”，比“AI刘强东还真”。

话不多说，直接上一分钟演示视频：

做到以假乱真效果，不用针对特定人物训练，只要上传一张人脸图片、一段音频，哪怕不是真人也行。

比如可以让蒙娜丽莎唱Rap，模仿安妮海瑟薇即兴吐槽狗仔队名场面。

或者让素描人像念华强台词。

在项目主页还有更多1分钟视频，以及更更多15秒视频可看。

不同性别、年龄、种族的数字人，用着不同的口音在说话。

根据团队在论文中的描述，VASA-1拥有如下特点：

唇形与语音的精准同步

这是最基本的，VASA-1在定量评估中也做到了顶尖水平。

丰富而自然的面部表情

不光做到让照片“开口说话”，眉毛、眼神、微表情等也跟着协调运动，避免显得呆板。

人性化的头部动作

说话时适当的点头、摇头、歪头等动作，能让人物看起来更加鲜活、更有说服力。

总得来说，仔细看的话眼睛还有一些破绽，但已经被网友评为“迄今为止最佳演示”。

然而更恐怖的是，整个系统推理速度还是实时级的。

生成512x512分辨率的视频，使用一块英伟达RTX4090显卡就能跑到40fps。

那么，VASA-1是如何做到这些的呢?

01 3大关键技术，Sora同款思路‍‍‍‍‍

一句话概括：

不是直接生成视频帧，而是在潜空间中生成动作编码，再还原成视频。

是不是和Sora的思路很像了？

其实VASA-1的模型架构选择Diffusion Transformer，也与Sora核心组件一致。

据论文描述，背后还有3大关键技术:

人脸潜编码学习，这部分是高度解耦的。

团队从大量个真实的说话视频中，学习到一个理想的人脸特征空间。

把身份、外观、表情、姿态等因素在隐空间里剥离开。这样一来，同一个动作就能驱动不同的脸，换成谁都很自然。

头部运动生成模型，这部分又是高度统一的。

不同于之前的方法分别建模嘴唇、眼神、眉毛、头部姿态等局部动作，VASA-1把所有面部动态统一编码，用Diffution Transfromer模型，也就是SORA同款核心组件，来建模其概率分布。

这样既能生成更协调自然的整体动作，又能借助transformer强大的时序建模能力，学习长时依赖。

比如给定一组原始序列（下图第一列），最终可以做到：

用原始头部姿态，改变面部表情（第二列）

用原始面部表情，改变头部姿态（第三列）

用原始面部表情，生成全新的头部姿态（第四列）

最后是高效率推理。

为了实现秒实时合成，团队对扩散模型的推理过程进行了大量优化。

此外，VASA-1还允许用户输入一些可选的控制信号，比如人物的视线方向、情绪基调等，进一步提升了可控性。

02 AI造假成本越来越低了‍

被VASA-1效果震惊过后，很多人开始思考，把AI数字人做到如此逼真，发布这样一个技术真的合适吗？

毕竟用AI伪造音频视频诈骗的例子，我们已经见过太多。

就在2个多月前，还有一起假冒公司CFO开视频会议，直接骗走1.8个亿的案件发生。

微软团队也意识到了这一问题，并作出如下声明：

我们的研究重点是为数字人生成视觉情感，旨在实现积极的应用。无意创建用于误导或欺骗的内容。
然而，与其他相关内容生成技术一样，它仍然可能被滥用于模仿人类。
我们反对任何创造真实人物的误导性或有害内容的行为，并且有兴趣应用我们的技术来推进伪造检测……

目前VASA-1只发布了论文，看来短时间内也不会发布Demo或开源代码了。

微软表示，该方法生成的视频仍然包含可识别的痕迹，数值分析表明，距离真实视频的真实性仍有差距。

不上专业评估手段，肉眼看的话，仔细挑刺或直接对比真人视频，确实也能发现目前VASA-1演示视频中的一些瑕疵。

比如牙齿偶尔会变形。

以及眼神还不像真人那么丰富。（眼睛确实是心灵的窗户啊）

但是以“AIGC一天，人间一年”的进步速度来看，修复这些瑕疵恐怕也不用很久。

以及你能保证每时每刻都保持警惕分辨视频真假么？

眼见不再为实。默认不相信任何视频，成了很多人今天做出的选择。

不管怎么样，正如一位网友总结。

我们无法撤销已经完成的发明，只能拥抱未来。

参考链接：

[1]https://www.microsoft.com/en-us/research/project/vasa-1/

[2]https://x.com/bindureddy/status/1780737428715950460

本文来自微信公众号“量子位”（ID:QbitAI），作者：关注前沿科技，36氪经授权发布。

近期资讯

谁还把123456当密码？全球最差密码榜来了

中关村在线 7小时前

小米15Ultra网传外观打几分？| 曝欧加安排7K电池纯直屏性能机

上个月小米发布了全新小米15和小米15Pro，按照产品更新节奏来看，2025年第一季度预计将带来小米15Ultra，最近关于15Ultra的爆料多了起来，今天外观有新消息。

小白测评 7小时前

极度未知 HyperX 声浪 2S 麦克风首售，1499 元

IT之家11月14日消息，极度未知HyperX声浪2S麦克风正式开售，该款麦克风拥有RGB灯效，支持一键静音等功能，售价1499元。据介绍，极度未知HyperX声浪2S麦克风最高支持32位192kHz高清录音，麦克风顶部拥有传感器控制开关，支持一触开启/取消静音。麦克风还配备新一代减震支架，可通过弹簧销拆卸。

IT之家 8小时前

消息称华为 Mate70 系列手机将使用维信诺 F1 屏幕发光材料

IT之家11月14日消息，在今日下午的2024维信诺屏幕技术发布会上，维信诺新一代发光材料体系F1正式发布。结合评论区讨论来看，该款高端新旗舰预计为华为Mate70系列手机。据介绍，维信诺新一代屏幕发光材料体系F1具有效率高、色偏小、寿命长、低蓝害4个特性，号称器件效率提升10%、寿命提升22%、视角色偏改善50%、蓝害减少10%。

IT之家 7小时前

马上消费副总经理孙磊：数字金融客服体系发展要注重人机协同

“在数字金融客服体系的发展中，我们要注重人机协同，实现大模型和小模型的有效结合，为客户提供更加优质、高效的服务”，11月9日，马上消费副总经理孙磊在第19届21世纪金融年会闭门论坛“问道数字金融新方向”上表示。孙磊表示，当前，马上消费智能客服意图识别率达90%，自助解决率已经达到了91%、用户好评率提升23%。

21世纪经济报道 7小时前

【前沿】小米汽车发布4项智能底盘预研技术可跳舞/圆规掉头

今天上午，小米汽车官方发布了4项智能底盘预研技术。

小白测评 7小时前

手机1%的电量到底能用多久？揭秘！

你是否曾在紧急时刻，看着手机电量的红线一点点逼近1%，心中充满了焦虑和无助？这时，你是否好奇过手机1%的电量到底能用多久呢？这个看似简单的问题，实际上，手机1%的电量能够持续多久，这与多种因素有关，比如手机的电池容量、制造商对剩余电量的计算方式、手机的操作系统优化程度，以及用户正在使用的应用程序类型等。

光明网 7小时前

ASML：预计2030年年收入将达约440亿至600亿欧元毛利率约56%至60%

11月14日，在2024年投资者日会议上，ASML将更新其长期战略以及全球市场和技术趋势分析，确认其到2030年的年收入将达到约440亿至600亿欧元，毛利率约为56%至60%。

证券时报 7小时前

上海智元新创申请机器人操纵方法专利，能提高机器人执行任务的准确性和效率

金融界2024年11月14日消息，国家知识产权局信息显示，上海智元新创技术有限公司申请一项名为“机器人操纵方法、机器人、存储介质、设备和程序产品”的专利，公开号CN118941619A，申请日期为2024年7月。

金融界 6小时前

杭州倚澜科技与特步申请基于多视角投影的物体对称轴检测专利，有效检测多种类型物体对称轴

金融界2024年11月14日消息，国家知识产权局信息显示，杭州倚澜科技有限公司和特步（中国）有限公司申请一项名为“基于多视角投影的物体对称轴检测方法及系统”的专利，公开号CN118941617A，申请日期为2024年8月。

金融界 6小时前

微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

01 3大关键技术，Sora同款思路‍‍‍‍‍

02 AI造假成本越来越低了‍

推荐体验

相关资讯

刘强东AI数字人直播首秀，全是技巧，毫无感情？

比P图软件还强！国产旗舰对比修图软件，AIGC消除才是真王者

刘强东AI数字人开启直播首秀 AIGC应用落地进程不断加速

Meta重回开源大模型铁王座；刘强东数字人直播创纪录 | 图灵周报

刘强东逼兄弟们找回狼性

近期资讯

谁还把123456当密码？全球最差密码榜来了

小米15Ultra网传外观打几分？| 曝欧加安排7K电池纯直屏性能机

极度未知 HyperX 声浪 2S 麦克风首售，1499 元

消息称华为 Mate70 系列手机将使用维信诺 F1 屏幕发光材料

马上消费副总经理孙磊：数字金融客服体系发展要注重人机协同

【前沿】小米汽车发布4项智能底盘预研技术可跳舞/圆规掉头

手机1%的电量到底能用多久？揭秘！

ASML：预计2030年年收入将达约440亿至600亿欧元毛利率约56%至60%

上海智元新创申请机器人操纵方法专利，能提高机器人执行任务的准确性和效率

杭州倚澜科技与特步申请基于多视角投影的物体对称轴检测专利，有效检测多种类型物体对称轴

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响