随着人工智能的快速发展,视音频技术也迎来了蓬勃的发展期。3月31日至4月1日,国内音视频领域盛会LiveVideoStackCon在北京成功举办,众多业内企业、技术专家和学者齐聚一堂,共同探讨多媒体音视频技术在技术升级、业务场景和应用创新等方面的实践和探索。作为视音频技术领域的代表企业之一,北京美摄网络科技有限公司连续六年参会,展示了在AIGC、数字人等领域的领先成果,展现了美摄科技的技术实力和创新能力。
美摄科技研发中心高级AI算法专家张瑞全出席活动,并围绕数字化内容生产快速落地分享了自己的见解。
美摄AIGC数字人基于虚拟视频合成技术,通过综合利用计算机视觉、图像处理和深度学习等技术,可以在无实物的条件下生成虚拟视频。目前主要有三种视频生成技术:语音驱动、动作驱动以及换脸。目前主要存在两个技术难点:一是表情和口型预测,合成视频容易出现音色改变、口型抖动、口型失真等干扰;二是视频帧渲染,如何实现真实面部渲染、防止表情失真,如何获取训练数据,都是要解决的问题。
张瑞全向与会者介绍了美摄研发中心实现表情和口型预测、3D人脸渲染及合成的技术原理,并详细比较了不同方法的优缺点。据他介绍,美摄科技研发团队已经拿出了相对成熟的技术方案,实现了逼真的虚拟视频合成效果。
以此为依托,张瑞全团队开发出多种借助AI技术快速生成数字人形象的产品应用,包括照片自动生成形象、视频自动生成形象以及GLB模型自动转换形象三种方式。操作者只需上传一张照片或一段视频,录入预设的文本内容,系统就可以自动生成对应的数字人形象,并配以逼真的语音播报口型,大大缩短制作周期。
他特别提到,以GLB生成数字人形象时,可以将其转换为美摄自研的3D文件格式“.ARSCENE”,转换后的效果包可以通过MeisheSDK在不同的平台上实时渲染驱动。GLB文件是以图形语言传输格式保存的3D模型,它以二进制格式存储有关3D模型的信息,包括节点层级、摄像机、材质、动画和网格。
而谈到近来大热的ChatGPT,张瑞全表示团队目前主要关注两个应用方向。一是智能数字人语音助手,将ChatGPT的混合语义理解能力和美摄已有的语音交互系统相结合,当用户提问一些开放性问题时,数字人助手可以给出更好的回答。二是将ChatGPT、视频剪辑和数字人相结合,用户只需填写一句话,设定好要求,系统就可以通过ChatGPT返回分镜脚本,并从中提取所需标签,由系统从媒资库中智能寻找对应的图像和视频资料。用户可以选择推荐素材,一键套用模板,直接形成预览视频,极大提高视频创作效率。
据张瑞全分享,美摄科技的AIGC数字人方案已经成功落地于多个一线品牌,在智能汽车、智能手表、智能手机、社交软件等领域的产品中都取得了出色的应用效果,为这些产品注入了更多创新和智能化元素。