当前位置:首页|资讯|数字人|AIGC|元宇宙

把数字人变得更有呼吸感,这家张江公司7年做了什么?

作者:张通社发布时间:2023-08-09

原标题:把数字人变得更有呼吸感,这家张江公司7年做了什么?

今年初以来,Chat GPT在国内刮起一股大语言模型的旋风,构建于大语言模型之上的产品应用成为行业热点,AI大模型加数字人便是一大热门方向。

叠境数字科技(上海)有限公司,上海科技大学孵化的第一家企业,早在2018年就打算用AIGC和光场采集技术去驱动数字人,让数字人变得更加真实,更加“能说会道”。

近日,张通社来到位于张江绿地MTOWN的叠境数字,请数字人业务总经理李彦,谈一谈叠境数字的数字人产品以及她对技术与赛道的看法。

以下是采访实录,对内容略有删减。

数字人业务总经理 李彦

01

AI让数字人能“聊天”

张通社:叠境数字目前有两大业务板块,其一是城市级数字孪生,其二是数字人。两者似乎有着挺大的差异。从公司定位看,叠境数字为什么要发展这两块业务?

叠境数字(李彦):叠境数字是上海科技大学孵化的第一家企业,公司愿景是“创造每个人都可以拥有的元宇宙”。我们希望将上科大的科研成果进行转化,开发出相应的产品来。

虽然这两块业务的着力方向不同,数字孪生的重点在于大规模城市的数字底座快速创建,数字人的重点在于形象的生动逼真,交互自然,但是两者依赖着相同的底层技术栈:他们都是以叠境数字的人工智能与光场采集作为底层技术栈。数字孪生业务就用到了我们在人工智能技术上的全部技术积累,着力在大尺度静态场域;数字人业务则用到了光场采集技术和智能视觉技术(人工智能的一个分支),着力点在塑造数字人超写实的外形和拥有通用性的沟通理解能力。

我们认为数字人不应该只有一个好看的皮囊,他/她应该能和人对话,变成更加智能的数字人。目前,叠境数字拥有一百多项自主研发的人工智能及光场视觉知识产权,这构建了我们在数字人业务上的专业技术壁垒,让我们有足够的技术实力去发展数字人业务。

张通社:叠境数字成立于2016年,从2018年开始,叠境数字就开展了数字人业务,公司的数字人业务的发展经历了什么过程?

叠境数字(李彦):叠境数字一直坚持用算法驱动数字人,目前数字人业务经历了三个阶段的发展。在第一阶段,我们运用了计算机图形学的技术能力,为一些知名艺人构建了数字分身,这些数字分身是基于视频形式而呈现的,会被投放到歌星的演唱会现场。

在第二阶段,我们开始和视觉创意顶流的艺术家合作,共同构建原创的数字人形象。这些数字人主打形象美观和逼真,皮肤细节要做到十分清晰。这些数字人形象曾和不少知名一线消费品牌方达成合作,成为它们的品牌代言人。不过,这属于客户定制款,每个数字人都有自己的脚本,制作成本相对较高。

在第三阶段,我们看到了Transformer神经网络模型,高性能的算力和海量的数据带来了生成式AI浪潮,并认为生成式AI与数字人结合将是一个很好的机会。有了AIGC,数字人不光是一个人形,它可以和人类进行交流,应用场景变得更多了。这是我们当下数字人业务的着力方向。

02

AI数字人是如何炼成的?

张通社:一位AI数字人,它的背后具体会有哪些技术驱动的?

叠境数字(李彦):首先,我们认为一位AI数字人要用到计算机图形学技术,用于高效地生成美观逼真的人物形象。

其次,他/她的交互部分涉及大语言模型和语音识别生成技术。大语言模型可以让数字人自然地回复人类的提问,语音识别技术可以将人类语音转化为计算机可解读的文本。具体而言,人们说的话,通过语音识别技术,输入进大模型中去,从而生成对应的对话语句,最后通过语音生成技术,让数字人讲出来。

除了让数字人说话互动的部分,我们还运用光场采集技术与深度神经网络,让数字人的说话方式与人物形态更加自然和真实。按照行业内的说法,就是把数字人变得更有呼吸感。我们会用深度相机捕捉上百个人类真实的说话声音、口型以及动作,并生成对应的3D模型,输入深度神经网络之中,让AI学习人类自然的说话方式。通过这样的AI学习,数字人说话的语音语调和动作神态就会变得更加真实自然。

光场采集现场设备

张通社:目前,制作一位AI数字人遇到的最大技术挑战是什么?

叠境数字(李彦):现在最大的技术难点在于数字人说话与口型对应起来。如果一位数字人所说的话,与他/她的嘴型无法一一对应,就会显得不真实。

为了让数字人的声音与口型对应起来,我们运用深度相机去捕捉数百人的说话口型,包括普通人和专业播音员,并把这些关于口型的3D数据输入AI模型。从目前进展看,我们能够做到中文语音和口型贴合自然。比如,当发出拼音里“o”的音时,人类会有轻微噘嘴的动作,而我们的数字人也会显示与人类一样的嘟嘴口型。

我们还准备进一步改进这项技术,让他/她不仅能捕捉说话人的口型,而且还能捕捉人的面部上百块肌肉变化,这就能让数字人呈现更自然的说话神态,精度可达毫米级别。

03

数字人的应用场景被AI拓宽

张通社:AI数字人的应用场景是什么样的?

叠境数字(李彦):目前,我们在新闻媒体与地产园区都有落地的项目。这些数字人可为我们客户提供“提效”的价值。

例如,我们已与第一财经达成合作,为他们制作了新闻主播数字人伊可。以往新闻主播的工作往往需要一个团队的支持,涉及到摄影师、化妆师、导播等人员。

数字人伊可亮相

对于数字人伊可,她的声纹、口型和动作均基于深度神经网络生成。同时我们根据第一财经主播的外形,精心设计了符合主播风格的数字人形象。只需要一份文字稿件,不需要其他人员参与,数字人伊可就能完成实时直播。

除此之外,我们的数字人还落地于园区运营企业。这些数字人可以实现员工入园的门禁打卡,访客身份识别和接待、预定会议室等功能。

张通社:据说叠境数字正在开发手语大模型,这是一款怎么样的产品,请介绍一下这款产品以及开发进度?

叠境数字(李彦):这是一款面向聋哑人的AI大模型产品。一般而言,聋哑人通常使用手势和口型进行沟通,那么通过这款产品的协助,聋哑人能和正常人进行无障碍沟通。

为了更好得贴合聋哑人真实的交流情况,我们分别对通用手语和上海地区自然手语,采集了2000至3000个常用手语字的数据。

为了力求真实,我们坚持收集关于手语的多种多样的高质量数据内容。

首先,我们在光场采集设施中获取大量关于口型和手势的样本,并且样本年龄分布大,包括小孩和老人多层次年龄段。其次,我们还进入社区服务中心和医院,用相机记录聋哑人在真实情形下的手势和口型状态。

采集手语数据

手语大模型的数字人

仅仅记录常用的手语字还不够,我们还记录下聋哑人在真实语境中,表达一段完整意思的影像。于是,我们团队分别在几十个具体的交流场景中,用深度相机记录下聋哑人如何表达完整的一句话。

通过这种方式,可供AI学习的数据不再是一个个间断的字,而是一句句连续的话,资料更贴合真实的交流状态。通过这些高质量数据的训练,手语大模型的生成手语内容会更加真实自然。

对于工作进展,我们已经基本完成了数据采集,预计今年10月完成手语大模型的第一版本,推广至城区的几个社区服务中心。明年6月,手语大模型会推广至全上海市聋哑人办事的窗口单位。

04

数字人的未来发展方向

张通社:当下的数字人赛道显得格外热闹,一些属于围绕IP重运营的虚拟偶像,一些是有着中之人的虚拟主播,还有用AI驱动的服务型数字人。您怎么看待未来数字人赛道发展?

叠境数字(李彦):我认为未来各种各样的数字人一定是百花齐放的,不同场景不同需求会需要不同的数字人。未来的数字人不会取代人,但是很有可能数量会超过人。随着技术不断进步,数字人的制作成本会不断降低,功能会更加强大,它们会变得更多,像NPC一样生活在我们周围。

从叠境数字着力发展的服务型数字人看,我觉得这种数字人能体现出一种服务平权。原来专人提供的VIP服务,现在只需一位数字人就能办到,一位数字人可让成千上万的人享受VIP服务。

从不同服务对象看,To B场景中的数字人能为企业提高效率,原本需要一群人去做的事情,现在一个数字人就能完成。To C场景中的数字人可以提供陪伴价值,比如陪着说话,讲故事。对于一些特殊群体,这些数字人可为他们获取原本难以获取的信息,比如为老人阐述养老金等扶助政策。

张通社:数字人技术演进到现在,仍有不少人不认可这种产品,他们觉得数字人仍然不够真实,您怎么看待这个现象?

叠境数字(李彦):我相信,给技术一些时间,数字人技术一定会不断地自我迭代。只要不断用它,它一定会越来越好。

当下数字人之所以不够真实,因为还有技术瓶颈待突破。之前,一位客户抱怨数字人就是一个假模特,买回来以后就束之高阁,没有用。等到今年生成式AI爆发后,这位客户又找回来了,他觉得数字人可以和人交互了,变得更有用了。

又比如,以往的数字人企业需要消耗大量的GPU资源去渲染数字人的精美外形。不过,随着技术不断突破,他们发现自己对GPU的依赖正在不断下降,并且性价比高的GPU变得越来越多,制作数字人成本将会不断下降。

所以,我觉得技术发展是一个螺旋上升的过程。过几年后,数字人的技术会更上一个台阶,更加具有真人感,会有更多人愿意与数字人交互起来。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1