把数字人变得更有呼吸感，这家张江公司7年做了什么？

作者：张通社发布时间：2023-08-09

今年初以来，Chat GPT在国内刮起一股大语言模型的旋风，构建于大语言模型之上的产品应用成为行业热点，AI大模型加数字人便是一大热门方向。

叠境数字科技（上海）有限公司，上海科技大学孵化的第一家企业，早在2018年就打算用AIGC和光场采集技术去驱动数字人，让数字人变得更加真实，更加“能说会道”。

近日，张通社来到位于张江绿地MTOWN的叠境数字，请数字人业务总经理李彦，谈一谈叠境数字的数字人产品以及她对技术与赛道的看法。

以下是采访实录，对内容略有删减。

数字人业务总经理李彦

AI让数字人能“聊天”

张通社：叠境数字目前有两大业务板块，其一是城市级数字孪生，其二是数字人。两者似乎有着挺大的差异。从公司定位看，叠境数字为什么要发展这两块业务？

叠境数字（李彦）：叠境数字是上海科技大学孵化的第一家企业，公司愿景是“创造每个人都可以拥有的元宇宙”。我们希望将上科大的科研成果进行转化，开发出相应的产品来。

虽然这两块业务的着力方向不同，数字孪生的重点在于大规模城市的数字底座快速创建，数字人的重点在于形象的生动逼真，交互自然，但是两者依赖着相同的底层技术栈：他们都是以叠境数字的人工智能与光场采集作为底层技术栈。数字孪生业务就用到了我们在人工智能技术上的全部技术积累，着力在大尺度静态场域；数字人业务则用到了光场采集技术和智能视觉技术(人工智能的一个分支），着力点在塑造数字人超写实的外形和拥有通用性的沟通理解能力。

我们认为数字人不应该只有一个好看的皮囊，他/她应该能和人对话，变成更加智能的数字人。目前，叠境数字拥有一百多项自主研发的人工智能及光场视觉知识产权，这构建了我们在数字人业务上的专业技术壁垒，让我们有足够的技术实力去发展数字人业务。

张通社：叠境数字成立于2016年，从2018年开始，叠境数字就开展了数字人业务，公司的数字人业务的发展经历了什么过程？

叠境数字（李彦）：叠境数字一直坚持用算法驱动数字人，目前数字人业务经历了三个阶段的发展。在第一阶段，我们运用了计算机图形学的技术能力，为一些知名艺人构建了数字分身，这些数字分身是基于视频形式而呈现的，会被投放到歌星的演唱会现场。

在第二阶段，我们开始和视觉创意顶流的艺术家合作，共同构建原创的数字人形象。这些数字人主打形象美观和逼真，皮肤细节要做到十分清晰。这些数字人形象曾和不少知名一线消费品牌方达成合作，成为它们的品牌代言人。不过，这属于客户定制款，每个数字人都有自己的脚本，制作成本相对较高。

在第三阶段，我们看到了Transformer神经网络模型，高性能的算力和海量的数据带来了生成式AI浪潮，并认为生成式AI与数字人结合将是一个很好的机会。有了AIGC，数字人不光是一个人形，它可以和人类进行交流，应用场景变得更多了。这是我们当下数字人业务的着力方向。

AI数字人是如何炼成的？

张通社：一位AI数字人，它的背后具体会有哪些技术驱动的？

叠境数字（李彦）：首先，我们认为一位AI数字人要用到计算机图形学技术，用于高效地生成美观逼真的人物形象。

其次，他/她的交互部分涉及大语言模型和语音识别生成技术。大语言模型可以让数字人自然地回复人类的提问，语音识别技术可以将人类语音转化为计算机可解读的文本。具体而言，人们说的话，通过语音识别技术，输入进大模型中去，从而生成对应的对话语句，最后通过语音生成技术，让数字人讲出来。

除了让数字人说话互动的部分，我们还运用光场采集技术与深度神经网络，让数字人的说话方式与人物形态更加自然和真实。按照行业内的说法，就是把数字人变得更有呼吸感。我们会用深度相机捕捉上百个人类真实的说话声音、口型以及动作，并生成对应的3D模型，输入深度神经网络之中，让AI学习人类自然的说话方式。通过这样的AI学习，数字人说话的语音语调和动作神态就会变得更加真实自然。

光场采集现场设备

张通社：目前，制作一位AI数字人遇到的最大技术挑战是什么？

叠境数字（李彦）：现在最大的技术难点在于数字人说话与口型对应起来。如果一位数字人所说的话，与他/她的嘴型无法一一对应，就会显得不真实。

为了让数字人的声音与口型对应起来，我们运用深度相机去捕捉数百人的说话口型，包括普通人和专业播音员，并把这些关于口型的3D数据输入AI模型。从目前进展看，我们能够做到中文语音和口型贴合自然。比如，当发出拼音里“o”的音时，人类会有轻微噘嘴的动作，而我们的数字人也会显示与人类一样的嘟嘴口型。

我们还准备进一步改进这项技术，让他/她不仅能捕捉说话人的口型，而且还能捕捉人的面部上百块肌肉变化，这就能让数字人呈现更自然的说话神态，精度可达毫米级别。

数字人的应用场景被AI拓宽

张通社：AI数字人的应用场景是什么样的？

叠境数字（李彦）：目前，我们在新闻媒体与地产园区都有落地的项目。这些数字人可为我们客户提供“提效”的价值。

例如，我们已与第一财经达成合作，为他们制作了新闻主播数字人伊可。以往新闻主播的工作往往需要一个团队的支持，涉及到摄影师、化妆师、导播等人员。

数字人伊可亮相

对于数字人伊可，她的声纹、口型和动作均基于深度神经网络生成。同时我们根据第一财经主播的外形，精心设计了符合主播风格的数字人形象。只需要一份文字稿件，不需要其他人员参与，数字人伊可就能完成实时直播。

除此之外，我们的数字人还落地于园区运营企业。这些数字人可以实现员工入园的门禁打卡，访客身份识别和接待、预定会议室等功能。

张通社：据说叠境数字正在开发手语大模型，这是一款怎么样的产品，请介绍一下这款产品以及开发进度？

叠境数字（李彦）：这是一款面向聋哑人的AI大模型产品。一般而言，聋哑人通常使用手势和口型进行沟通，那么通过这款产品的协助，聋哑人能和正常人进行无障碍沟通。

为了更好得贴合聋哑人真实的交流情况，我们分别对通用手语和上海地区自然手语，采集了2000至3000个常用手语字的数据。

为了力求真实，我们坚持收集关于手语的多种多样的高质量数据内容。

首先，我们在光场采集设施中获取大量关于口型和手势的样本，并且样本年龄分布大，包括小孩和老人多层次年龄段。其次，我们还进入社区服务中心和医院，用相机记录聋哑人在真实情形下的手势和口型状态。

采集手语数据

手语大模型的数字人

仅仅记录常用的手语字还不够，我们还记录下聋哑人在真实语境中，表达一段完整意思的影像。于是，我们团队分别在几十个具体的交流场景中，用深度相机记录下聋哑人如何表达完整的一句话。

通过这种方式，可供AI学习的数据不再是一个个间断的字，而是一句句连续的话，资料更贴合真实的交流状态。通过这些高质量数据的训练，手语大模型的生成手语内容会更加真实自然。

对于工作进展，我们已经基本完成了数据采集，预计今年10月完成手语大模型的第一版本，推广至城区的几个社区服务中心。明年6月，手语大模型会推广至全上海市聋哑人办事的窗口单位。

数字人的未来发展方向

张通社：当下的数字人赛道显得格外热闹，一些属于围绕IP重运营的虚拟偶像，一些是有着中之人的虚拟主播，还有用AI驱动的服务型数字人。您怎么看待未来数字人赛道发展？

叠境数字（李彦）：我认为未来各种各样的数字人一定是百花齐放的，不同场景不同需求会需要不同的数字人。未来的数字人不会取代人，但是很有可能数量会超过人。随着技术不断进步，数字人的制作成本会不断降低，功能会更加强大，它们会变得更多，像NPC一样生活在我们周围。

从叠境数字着力发展的服务型数字人看，我觉得这种数字人能体现出一种服务平权。原来专人提供的VIP服务，现在只需一位数字人就能办到，一位数字人可让成千上万的人享受VIP服务。

从不同服务对象看，To B场景中的数字人能为企业提高效率，原本需要一群人去做的事情，现在一个数字人就能完成。To C场景中的数字人可以提供陪伴价值，比如陪着说话，讲故事。对于一些特殊群体，这些数字人可为他们获取原本难以获取的信息，比如为老人阐述养老金等扶助政策。

张通社：数字人技术演进到现在，仍有不少人不认可这种产品，他们觉得数字人仍然不够真实，您怎么看待这个现象？

叠境数字（李彦）：我相信，给技术一些时间，数字人技术一定会不断地自我迭代。只要不断用它，它一定会越来越好。

当下数字人之所以不够真实，因为还有技术瓶颈待突破。之前，一位客户抱怨数字人就是一个假模特，买回来以后就束之高阁，没有用。等到今年生成式AI爆发后，这位客户又找回来了，他觉得数字人可以和人交互了，变得更有用了。

又比如，以往的数字人企业需要消耗大量的GPU资源去渲染数字人的精美外形。不过，随着技术不断突破，他们发现自己对GPU的依赖正在不断下降，并且性价比高的GPU变得越来越多，制作数字人成本将会不断下降。

所以，我觉得技术发展是一个螺旋上升的过程。过几年后，数字人的技术会更上一个台阶，更加具有真人感，会有更多人愿意与数字人交互起来。

近期资讯

硕博电子 16小时前

每天一个数据分析题（五百五十五）- 离散程度

教育水平作为定序型变量，若要描述其离散程度，可选用以下哪种方法（） A. 平均差 B. 四分位差 C. 方差 D. 标准差数据分析认证考试介绍：https://www.cdaglobal.com/pinggu.html?utm_source=bz-cda-exam-css 数据分析考试大纲下载：https://www.cdaglobal.com/certification.html?utm_source=bz-cda-exam-css#nav3 题目来源于CDA

跟着紫枫学姐学CDA 16小时前

猎变混动惊艳亮相！蜻蜓队长引围观

猎变是个新兴品牌，说实话笔者也是最近才开始关注他们。它们的车型个性十足，辨识度很高，非常受年轻人的喜爱。并且猎变还是豪进集团的子品牌，要知道豪进可是国内摩托的老牌厂商，其技术实力和造车经验很丰富，现在就来看看他们带来了哪些好车吧。 [图片] 猎变以“机械宠物”为品牌理念，主打年轻时尚以及个性化的设计。能明显感觉到猎变是以骑士的玩乐需求为主，在产品研发上坚持外观原创，因此也吸引了年轻骑士的格外关注。 [图片] 猎变的“蜻蜓队长”就是一款个性十足的车型，整车采用复古攀爬风格设计，前脸的辨识度极高。再配合宽大的

萝卜报告 16小时前

钻石、冰晶造手机壳？！手感最舒服的竟是它｜iPhone 16 戴壳这样选，别被忽悠瘸

iPhone 16发布了，手机虽然没咋更新，手机壳却迎来大洗牌，各种「全新材质」让人眼花缭乱，什么钛晶材质、康宁玻璃...有的是造新词，有的还真是「新材质」。什么钻石玻璃、晶钻玻璃、冰晶玻璃、电镀玻璃，到底都是哪门子玻璃。什么某某材质不变色，到今天都在骗买家。什么防滑耐刮，有些完全就是虚假宣传，今天咱们就要全部揭露出来！为了让大家重新了解手机壳这个品种以及学习基础的辨别方法，我们买下了市面上0-200元各种材质的手机壳。有TPU、PC、PP、亚克力、玻璃、皮革、液态硅胶、碳纤维、金属等等材质，而这些材质下

最热科技 16小时前

清空回收站后怎么恢复数据？7个恢复方法任你选！分分钟恢复数据！

清空回收站后怎么恢复数据？7个恢复方法任你选！分分钟恢复数据！在使用电脑的过程中，我们有时会不小心清空回收站，等反应过来的时候，可能会懊悔不已，担心那些重要的文件再也找不回来了。别着急，其实回收站清空后还是有机会恢复的。下面就为大家介绍 7 个恢复方法，任你选择，让你分分钟恢复数据。一、为什么回收站清空后还能恢复？当我们把文件删除到回收站并清空后，文件并没有真正从硬盘上消失。实际上，操作系统只是将这些文件所占用的磁盘空间标记为可覆盖状态。只要这些空间没有被新的数据覆盖，就有机会通过特定的方法将文件恢复出来

嗨格式 16小时前

把数字人变得更有呼吸感，这家张江公司7年做了什么？

推荐体验

相关资讯

首次公开收购！OpenAI 选择这家成立2年的8人游戏公司做什么？

影棚级人像，拍人更有氛围感！14日晚上7点 vivo S18系列等你来！

人工智能让老年人的生活更有幸福感

OpenAI的首次公开收购，为什么是这家仅成立两年的八人设计公司？

创始人借贷“续命”，苦熬22年，如今这家AI公司终于IPO

近期资讯

台积电与三星或携手阿联酋，酝酿千亿芯片项目?

高中英语，作文万能模板，背完=“抄答案”

2024年光伏电站运维职业能力证书报名中

最新防泄密软件推荐指南 | 十款防止数据泄露工具分享

车载智能控制器，支持CAN总线、以太网

每天一个数据分析题（五百五十五）- 离散程度

猎变混动惊艳亮相！蜻蜓队长引围观

钻石、冰晶造手机壳？！手感最舒服的竟是它｜iPhone 16 戴壳这样选，别被忽悠瘸

清空回收站后怎么恢复数据？7个恢复方法任你选！分分钟恢复数据！

「高中历史」七种大题答题模板，谁也逃不过的答题模板！！！

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响