AI视频又炸了！照片+声音变视频，阿里让Sora女主唱歌小李子说rap

作者：量子位发布时间：2024-02-29

AI视频 Sora

AI视频又炸了！照片+声音变视频，阿里让Sora女主唱歌小李子说rap

衡宇梦晨发自凹非寺

量子位 | 公众号 QbitAI

Sora之后，居然还有新的AI视频模型，能惊艳得大家狂转狂赞！

有了它，《狂飙》大反派高启强化身罗翔，都能给大伙儿普法啦（狗头）。

这就是阿里最新推出的基于音频驱动的肖像视频生成框架，EMO（Emote Portrait Alive）。

有了它，输入单张参考图像，以及一段音频（说话、唱歌、rap均可），就能生成表情生动的AI视频。视频最终长度，取决于输入音频的长度。

你可以让蒙娜丽莎——这位AI届效果体验的老选手，朗诵一段独白。

年轻俊美的小李子来段快节奏的rap才艺秀，嘴形跟上完全没问题。

甚至粤语口型也能hold住，这就让哥哥张国荣来首陈奕迅的《无条件》。

总之，不管是让肖像唱歌（不同风格的肖像和歌曲）、让肖像开口说话（不同语种）、还是各种“张冠李戴”的跨演员表演，EMO的效果，都让咱看得一愣一愣的。

网友大感叹：“我们正在走进一个新的现实！”

（2019版《小丑》说2008版《蝙蝠侠黑暗骑士》的台词）

甚至已经有网友开始对EMO生成视频开始了拉片，逐帧分析效果究竟怎么样。

如下面这段视频，主角是Sora生成的AI女士，本次为大家演唱的曲目是《Don’t Start Now》。

推友分析道：

这段视频的一致性，比以往更上一层楼了！

一分多钟的视频里，Sora女士脸上的墨镜几乎没有乱动，耳朵、眉毛都有独立的运动。

最精彩的是Sora女士的喉咙好像真的有呼吸哎！她唱歌的过程中身体还有微颤和移动，我直接大震惊！

话说回来，EMO是热门新技术嘛，免不了拿来与同类对比——

就在昨天，AI视频生成公司Pika也推出了为视频人物配音，同时“对口型”的唇形同步功能，撞车了。

具体效果怎么样呢，我们直接摆在这儿

评论区网友对比过后得出的结论是，被阿里吊打了。

EMO公布论文，同时宣布开源。

但是！虽说开源，GitHub上仍然是空仓。

再但是！虽然是空仓，标星数已经超过了2.1k。

惹得网友们真的是好着急，有吉吉国王那么急。

与Sora不同架构

EMO论文一出，圈内不少人松了口气。

它与Sora技术路线不同，说明复刻Sora不是唯一的路。

EMO并不是建立在类似DiT架构的基础上，也就是没有用Transformer去替代传统UNet，其骨干网络魔改自Stable Diffusion 1.5。

具体来说，EMO是一种富有表现力的音频驱动的肖像视频生成框架，可以根据输入视频的长度生成任何持续时间的视频。

该框架主要由两个阶段构成：

帧编码阶段

部署一个称为ReferenceNet的UNet网络，负责从参考图像和视频的帧中提取特征。

扩散阶段

首先，预训练的音频编码器处理音频嵌入，人脸区域掩模与多帧噪声相结合来控制人脸图像的生成。

随后是骨干网络主导去噪操作。在骨干网络中应用了两种注意力，参考注意力和音频注意力，分别作用于保持角色的身份一致性和调节角色的运动。

此外，时间模块被用来操纵的时间维度，并调整运动的速度。

在训练数据方面，团队构建了一个包含超过250小时视频和超过1500万张图像的庞大且多样化的音视频数据集。

最终实现的具体特性如下：

可以根据输入音频生成任意持续时间的视频，同时保证角色身份一致性（演示中给出的最长单个视频为1分49秒）。

支持各种语言的交谈与唱歌（演示中包括普通话、广东话、英语、日语、韩语

支持不同画风（照片、传统绘画、漫画、3D渲染、AI数字人）

在定量比较上也比之前的方法有较大提升取得SOTA，只在衡量口型同步质量的SyncNet指标上稍逊一筹。

与其他不依赖扩散模型的方法相比，EMO更耗时。

并且由于没有使用任何显式的控制信号，可能导致无意中生成手等其他身体部位，一个潜在解决方案是采用专门用于身体部位的控制信号。

EMO的团队

最后，来看看EMO背后的团队有那些人。

论文显示，EMO团队来自阿里巴巴智能计算研究院。

作者共四位，分别是Linrui Tian，Qi Wang，Bang Zhang和Liefeng Bo。

其中，薄列峰（Liefeng Bo），是目前的阿里巴巴通义实验室XR实验室负责人。

薄列锋博士毕业于西安电子科技大学，先后在芝加哥大学丰田研究院和华盛顿大学从事博士后研究，研究方向主要是ML、CV和机器人。其谷歌学术被引数超过13000。

在加入阿里前，他先是在亚马逊西雅图总部任首席科学家，后又加入京东数字科技集团AI实验室任首席科学家。

2022年9月，薄列峰加入阿里。

EMO已经不是第一次阿里在AIGC领域出圈的成果了。

有AI一键换装的OutfitAnyone。

还有让全世界小猫小狗都在跳洗澡舞的AnimateAnyone。

就是下面这个：

如今推出EMO，不少网友在感叹，阿里是有些技术积累在身上的。

如果现在把所有这些技术结合起来，那效果……

不敢想，但好期待。

总之，我们离“发给AI一个剧本，输出整部电影”越来越近了。

One More Thing

Sora，代表文本驱动的视频合成的断崖式突破。

EMO，也代表音频驱动的视频合成一个新高度。

两者尽管任务不同、具体架构不同，但还有一个重要的共性：

中间都没有加入显式的物理模型，却都在一定程度上模拟了物理规律。

因此有人认为，这与Lecun坚持的“通过生成像素来为动作建模世界是浪费且注定要失败的”观点相悖，更支持了Jim Fan的“数据驱动的世界模型”思想。

过去种种方法失败了，而现在的成功，可能真就来自还是强化学习之父Sutton的《苦涩的教训》，大力出奇迹。

让AI能够像人们一样去发现，而不是包含人们发现的内容

突破性的进展最终通过扩大计算规模来实现

论文：

https://arxiv.org/pdf/2402.17485.pdf

GitHub:

https://github.com/HumanAIGC/EMO

参考链接：

[1]https://x.com/swyx/status/1762957305401004061

近期资讯

OPPO A5 Pro开箱：超好看的耐用小金刚

　　OPPOA5Pro采用了一块超亮阳光屏，分辨率为1080*2412，手动最高亮度600nits，全局激发亮度最高可达1200nits。而根据配色不同，砂岩紫与红色特别版后盖采用晶盾玻璃，磐石黑与石英白采用高分子玻纤材料。

IT168 2024-12-27

民航无线电“安全卫士”：为每次飞行编织安全网

中新网云南新闻12月27日电(艾芯羽)当一架架飞机优雅地起降于跑道之上，这背后凝聚着一群默默付出、鲜为人知的专业人士——民航无线电管理检查员的辛勤与智慧。他们，如同飞行安全链上的隐形守护者，用专业和严谨，为每一次飞行编织起一张无形的通信安全网。晨曦初破，祥鹏航空无线电管理检查员刘丽娜和金家已经整装齐备，踏上了飞机的舷梯。

中国新闻网 2024-12-27

亚信科技斩获5项“星河”标杆案例，获评数据产业代表性厂商

日前，在中国通信标准化协会、中国信通院在京举办的2024数据资产管理大会上，亚信科技携广东、河南、重庆、河北和云南客户打造的相关项目分别获评大数据“星河”奖的“典型案例”“潜力案例”，亚信科技作为代表性厂商入选《数据治理产业图谱3.0》。

砍柴网 2024-12-27

vivo Y200＋发布骁龙4 Gen 2＋720P屏幕 1099元起

【CNMO科技消息】近日，CNMO注意到，vivo上线了一款vivoY200＋新机。高通骁龙4Gen2是高通旗下的入门级手机SoC，采用三星4nm工艺制程，CPU采用两颗性能核心+六颗能效核心组成的八核心方案。

手机中国 2024-12-27

北青网 2024-12-27

从“支付”到“智付” 数字人民币塑造消费新生态

拿出手机，在应用商城下载“数字人民币”APP，按照几个简单步骤就可以拥有一个“数币钱包”，走进上海的地铁、商店、消费等场所手机“碰一碰”，即可用数字人民币进行消费支付。如今，数字人民币“格外丝滑”的智能应用已经渗透到社会生活的多个方面，引领着消费方式革新。

光明网 2024-12-27

出海后竞争对手仍是国内同行，机器人“内卷”该如何破局？

卷向海外，竞争对手仍是国内同行；招投标价格断崖下跌，订单持续性下降……国产机器人内卷加剧。12月26日，在2024中国机器人网年会圆桌对话中，一众机器人企业探讨行业的内卷与破局。当前，国内机器人本体企业约上千家，供需失衡加剧行业内卷，机器人产品同质化直接决定了招投标价低者得的导向。

澎湃新闻 2024-12-27

联诚精密：下属子公司部分零件产品应用于工业机器人领域

联诚精密(002921)12月27日在互动平台表示，公司下属子公司的部分零件产品应用于工业机器人领域，人形机器人未来市场空间广阔，公司将积极研究探索人形机器人领域的业务发展机会。

证券时报 2024-12-27

AI视频又炸了！照片+声音变视频，阿里让Sora女主唱歌小李子说rap

AI视频又炸了！照片+声音变视频，阿里让Sora女主唱歌小李子说rap

推荐体验

相关资讯

让Sora东京女郎唱歌、高启强变声罗翔，阿里人物口型视频生成绝了

加州大学洛杉矶分校：来自“小李子”的奖学金

Sora又被超越！Meta AI视频模型炸场，让视频编辑比P图还简单

OpenAI又爆了！首个视频生成模型Sora惊艳亮相，视频行业被颠覆？

Sora 又被超越！Meta AI 视频模型深夜炸场，自带惊艳 BGM，让视频编辑比 P 图还简单

近期资讯

OPPO A5 Pro开箱：超好看的耐用小金刚

民航无线电“安全卫士”：为每次飞行编织安全网

亚信科技斩获5项“星河”标杆案例，获评数据产业代表性厂商

vivo Y200＋发布骁龙4 Gen 2＋720P屏幕 1099元起

小米卢伟冰：小米全球月活跃用户数已超6.86亿

各界拥抱AI规模化产业应用契机

自主研制科考+考古！“探索三号”交付启航

从“支付”到“智付” 数字人民币塑造消费新生态

出海后竞争对手仍是国内同行，机器人“内卷”该如何破局？

联诚精密：下属子公司部分零件产品应用于工业机器人领域

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响