单张照片实现人像编辑及驱动！华为云论文入选顶会ACM-MM’24

作者：华为云发布时间：2024-08-01

近日，计算机多媒体领域顶会ACM Multimedia 2024公布投稿录用结果，华为云技术创新部—媒体创新Lab的论文《DisControlFace: Adding Disentangled Control to Diffusion Autoencoder for One-shot Explicit Facial Image Editing》被接受录用！

该论文重点探究学习基于扩散生成式人脸编辑中针对高维人脸语义信息和显式3DMM参数的解耦控制，无需额外数据即可实现对人脸图像的姿态、表情和光照进行显式编辑和驱动并有效保留人物的原始ID信息。

ACM Multimedia（ACM-MM）创立于1993年，距今有31年的历史，是由计算机协会Association for Computing Machinery（ACM）的SIGMM多媒体特别兴趣小组主办的聚焦计算机多媒体领域的顶级国际会议。2024年的ACM-MM会议共收到4385篇投稿，录用1149篇，录用率仅26.2%。

▲DisControlFace论文介绍

人脸图像编辑长期以来一直是计算机视觉和计算机图形学领域的热门研究课题。然而，现有方法较少关注人脸图像生成式编辑过程中不同信息的解耦控制，因而在不依赖额外训练数据的情况下，难以实现针对真实人脸的精细可控式生成的同时，保持原始人脸的语义先验信息。

为了解决这一问题，本论文提出DisControlFace，一种引入解耦控制机制的人脸图像编辑算法，能够有效对单张人脸图像进行显式参数化编辑和驱动。

DisControlFace创新性地将预训练的扩散人脸重建模型引入显式人脸编辑生成管线作为基模并冻结其参数，用以提供确定性的语义先验控制信息；
在此基础上，DisControlFace构建了一个Exp-FaceNet模型专门用以学习基于3DMM参数的细粒度显式人脸控制能力；
最后，针对所构建的生成式编辑架构，DisControlFace提出一种基于随机语义掩码策略的训练机制，使得Exp-FaceNet以解耦的方式学习显式人脸编辑能力。

DisControlFace只使用真实环境人脸图像公开数据集进行训练，即可具备对单张人脸图像的姿态、表情和光照进行显式编辑的能力，同时支持跨人物视频驱动。

大量实验证明DisControlFace能够生成逼真的人脸图像，在编辑精度和语义先验保持方面优于现有方法，并额外支持人脸图像语义属性修改（年龄和发型等）和人脸图像修补等相关任务。

▲DisControlFace的系统架构图

此外，该论文涉及的人脸语义先验控制亦可被应用于AIGC视频编辑中长序列和跨场景人物ID一致性保持等任务中。基于此，该技术也被应用在团队开发的AI视频风格化生成服务中，用以在多种复杂场景的重绘中保持特定角色的人物形象。

AI视频风格化生成服务由华为云媒体创新Lab团队基于视觉生成式大模型所开发，重点解决AIGC视频编辑中多场景风格迁移、视频动作迁移和视频时序一致性保持等挑战性难题。

该服务已被用于为北京国际电影节AIGC影片竞赛获奖影片制作等重要商业POC提供核心技术支持，极大降低了传统美工手动制作流程的工作量。

▲华为开发者大会2024期间华为云发布AI视频风格化生成服务

关注@华为云，了解更多资讯