美摄科技张瑞全：拓展AIGC+数字人的想象空间

作者：砍柴网发布时间：2023-04-03

随着人工智能的快速发展，视音频技术也迎来了蓬勃的发展期。3月31日至4月1日，国内音视频领域盛会LiveVideoStackCon在北京成功举办，众多业内企业、技术专家和学者齐聚一堂，共同探讨多媒体音视频技术在技术升级、业务场景和应用创新等方面的实践和探索。作为视音频技术领域的代表企业之一，北京美摄网络科技有限公司连续六年参会，展示了在AIGC、数字人等领域的领先成果，展现了美摄科技的技术实力和创新能力。

美摄科技研发中心高级AI算法专家张瑞全出席活动，并围绕数字化内容生产快速落地分享了自己的见解。

美摄AIGC数字人基于虚拟视频合成技术，通过综合利用计算机视觉、图像处理和深度学习等技术，可以在无实物的条件下生成虚拟视频。目前主要有三种视频生成技术：语音驱动、动作驱动以及换脸。目前主要存在两个技术难点：一是表情和口型预测，合成视频容易出现音色改变、口型抖动、口型失真等干扰；二是视频帧渲染，如何实现真实面部渲染、防止表情失真，如何获取训练数据，都是要解决的问题。

张瑞全向与会者介绍了美摄研发中心实现表情和口型预测、3D人脸渲染及合成的技术原理，并详细比较了不同方法的优缺点。据他介绍，美摄科技研发团队已经拿出了相对成熟的技术方案，实现了逼真的虚拟视频合成效果。

以此为依托，张瑞全团队开发出多种借助AI技术快速生成数字人形象的产品应用，包括照片自动生成形象、视频自动生成形象以及GLB模型自动转换形象三种方式。操作者只需上传一张照片或一段视频，录入预设的文本内容，系统就可以自动生成对应的数字人形象，并配以逼真的语音播报口型，大大缩短制作周期。

他特别提到，以GLB生成数字人形象时，可以将其转换为美摄自研的3D文件格式“.ARSCENE”，转换后的效果包可以通过MeisheSDK在不同的平台上实时渲染驱动。GLB文件是以图形语言传输格式保存的3D模型，它以二进制格式存储有关3D模型的信息，包括节点层级、摄像机、材质、动画和网格。

而谈到近来大热的ChatGPT，张瑞全表示团队目前主要关注两个应用方向。一是智能数字人语音助手，将ChatGPT的混合语义理解能力和美摄已有的语音交互系统相结合，当用户提问一些开放性问题时，数字人助手可以给出更好的回答。二是将ChatGPT、视频剪辑和数字人相结合，用户只需填写一句话，设定好要求，系统就可以通过ChatGPT返回分镜脚本，并从中提取所需标签，由系统从媒资库中智能寻找对应的图像和视频资料。用户可以选择推荐素材，一键套用模板，直接形成预览视频，极大提高视频创作效率。

据张瑞全分享，美摄科技的AIGC数字人方案已经成功落地于多个一线品牌，在智能汽车、智能手表、智能手机、社交软件等领域的产品中都取得了出色的应用效果，为这些产品注入了更多创新和智能化元素。

美摄科技张瑞全：拓展AIGC+数字人的想象空间

推荐体验

相关资讯

驰骋主赛道撬动商业价值，微美全息抢先拓展AIGC+数字人想象空间

美摄科技发布云剪辑3.0版本，整合AIGC数字人内容生产

AIGC+数字人迎来高速增长契机，世优BOTA拓展虚拟数字人应用场景

AIGC在保险场景的落地，还有哪些想象空间？

虚拟人领跑市场潜力不容小视，微美全息AIGC+“数字人”助推应用热潮

近期资讯

掌握五笔输入法：快速输入“卫”字及提高打字效率技巧

掌握手机定位功能设置，提升生活便利性与安全性的方法总结

打造高效群聊的策略与技巧：从平台选择到管理法则解析

教你如何找回被删除的微信好友，重建美好联系

数字时代表情符号制作指南：创意与个性化表达的乐趣与技巧

如何高效绑定QQ号以提升账号安全与社交体验

掌握三星手机重启技巧，提升使用体验与性能

数字时代密码安全攻略：定期修改与独特性的重要性

小米手机刷机全攻略：从备份到完成的详细步骤与注意事项

如何高效剪短视频：技巧与工具推荐，助你轻松上手剪辑艺术

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响