演讲内容正文
我的工作相对更加具体一点,因为我是工作在游戏公司,实际面对的问题是要解决游戏中的生产效率的问题。具体我的工作更多解决的是数字人视觉生成方面。具体我的工作更多解决的是数字人视觉生成方面。今天我们来谈AIGC,大家关注度很高。其实这件事情,我认为最早提出来是上世纪八十年代末,由美国的一批年轻学者就提出了我们今天想要做的数字人,他们今天已经成为了欧美院校的一些泰斗级的教授了。今天谈的是更多的是深度学习引起了这些技术应用的落地,我聚焦的是我的工作,更多的工作还是需要全行业一起努力。
大家谈到AI,更关注的是自然语言的对话。当时我们在五年前,说做表情的合成,大家会觉得很奇怪,为什么要有表情?我们能说话就可以了,干吗要有表情。其实表情是非常重要的,比如说在小孩的成长过程中,当他还没有语言能力的时候,已经可以用他的表情表达他的内心状态了。不仅可以表达,他还可以用他的表情产生亲子互动。除了跟亲子之间,他跟伙伴之间也可以产生表情和肢体动作。当然到了成年之后,我们更加会运用肢体和表情来交互,它的信息量是高于自然语言带来的描述的。
今天的工业做得比较好的地方,在这些动画产业里面,或者电影工业里面,其实对表情的刻画已经非常好了,或者说看起来没有再需要提高的地方了。但这里面背后有一个很大的问题,这样的技术恐怕仅仅聚焦在电影作品中,甚至在游戏行业中也消费不起,因为这里面耗费的人工成本太高了。过去十五时间里面,动捕技术的成熟,还是有很高的人力成本,数据没有办法直接使用,限制了生产效率的提高。这就是我们今天要来AIGC的意义,希望人工智能的技术,把数据的复用性,数据的采集生成的效率能够提高,能够快速带来产业的机会,我们希望一个游戏的产品因为美术环节的加速能够提高产品的迭代,这也是我们的工作所在。
接下来跟大家交流一下,在实际的工作中我们已经做了哪些工作在游戏中落地。这是我们在2018年底,2019年开始成熟的技术,我们已经完成了用语音来驱动游戏中的口型还有眉眼表情的生成。这个基于的假设,人在表达的时候,一个是语言,一个是表情,还有肢体,这样一个多渠道的表达都在反映我内心要表达的意图,在时序上它们是相关的,这个相关性是非常复杂的。直到深度学习的出现,我们才真的把这件事情落地,在九十年代基本统计学的理论做的时候,没法想象把它做到落地。这是我们网易游戏的效果。当然今天这样一个AI生成表情被很多游戏公司研发或者采纳,成为了AI对游戏产业标配的功能了。
除了表情以外,肢体动作AI的进入也带来了非常大的生产力的提高,也解决了很多问题。比如在我们网易教育产品中的应用,极客战记,是教小孩编程的,小孩子经常会遇到困难,这一关就结束了,不再学习下去了,这时候我们引入一个虚拟角色,提高人机交互的主动性。我们后端根据小孩的进展数据,是可以检测到他在哪个知识点遇到什么问题,传统的人机交互的情况下没有办法拉近距离,但有了虚拟角色出现以后,虚拟角色就会主动跳出来鼓励小朋友,你要坚持一下。这里面基于很大的一个技术提高,角色整个肢体表达、表情表达它的生产成本变得非常低。我们引入主动的交互会带来非常大的可能性。
这里讲一个我们发表的2021年的工作,这份工作非常重要,据我所知,其实已经有不少的公司,甚至创业公司以这份工作的技术框架为基本模板,实现了他们的商业化和落地的项目。讲几个非常核心的地方,大家知道深度学习是很讲究数据的,我们很大程度上做了一个设计解决数据的问题。我们把问题分成两个部分,一个是解决跨模态音频到动作时序映射的问题,首先把这个任务抽象出来,有了时序关系生成动画以后,再怎么映射到具体的人,每个人长的不一样,是个性化的问题,把共性的问题抽出来,用一个共同的数据集,做好了以后,在应用过程中再也不需要重新收集,对于个性化的问题,我只需要非常少的数据,可能10分钟、20分钟就可以完成这件事情了,预设的模块,把所有的时序关系抽象出来,余下的这些是跟特定人脸相关的问题,我就解决了数据的问题。当然还有一些其它的问题,怎么把图形的问题和图象的问题相结合,时间问题我不展开。
最后的效果是怎么样的呢?这两个视频首先是2D的,背后一定有3D的影子,在算法里面会有。这个视频更多的是象素级的生成,在播放的时候,我比较喜欢的是不用男性的声音生成这段视频,我恰恰用女性的声音驱动这段视频,就想告诉大家这个效果就是一段AI合成的视频。
这里技术拆解的过程,我们会生成先对内脸做一个生成,这里面会有一个自动学习到如何把这两个图象做融合得到后面的结果。
这是展示细节的差别,动画的表情参数是增值,我们仅仅看个性化的部分,越亮的部分两个象素级差得越大的部分,其实对于肉眼来说,已经没有这么高的要求了。
再给大家介绍我们最新的一份工作,可以说人类首次吧,把表情定义定义到了135种。我们在游戏工作中经常会发现一个问题,大家总觉得这个角色的表情不太好,能不能再萌一点,能不能再高兴一点,也不要太高兴。我们提炼出第一表情不够丰富,第二缺乏这样的一个标准在里面。整个学术界或者工业界,甚至我们的人类生活怎么谈论表情的情绪呢,大家可能讲起来很简单,表情可能是高兴、生气、悲伤,可能6种、9种或者11种,或者有一点高兴有一点悲伤。但到了今天谈AIGC,谈数据的话,数据计算机已经可以把很多东西进行量化了,用情绪粗糙的类别描绘表情已经阻碍了今天工业化的发展。以此我们想说,我们真正能不能找到虚拟度的标准,刻画表情对心理的描述。我们发现在心理学里面,对心理的状态穷尽了英语的词汇,到了135个,当然不能说这135个覆盖了所有人的情绪。我们的工作把这135种的心理状态对应的表情都找出来,并且反映多样性。我们找到了接近1000个一直到几万个,整个数据集有接近70万个。
说到表情,我自己在读书的过程中已经体会到这个问题,到底怎么来决定我们今天的表情是喜怒哀乐呢,这个由150年前的达尔文等学者定义的,在那个时代推进了科技的发展,也影响人们的生活,但今天就受到了阻碍。
我们今天的工作就要往前突破。从数学层面来讲,这样一个简单的表情也是有问题的,比如对深度学习分类问题来说,假设投影到二维里面,每一个颜色具体类别的话,那这个空间是非常浪费的,同一个类别可能都是“高兴”,“高兴”点之间的距离是没有概念的,浪费了空间的,因为它只要分开就行了。这样的东西,对表述我们的面部表情来说过于粗糙了。
我们一定要用一个连续的空间,是不加以分类的,因为肉眼对人的表情感知就是一个连续空间,我们可以感受到非常细腻度的表情,比如说话的时候是不是专心的,是不是撒谎,一眼能看明白。在数学的空间中,一定是延续的感知空间,必须做到这样一个前提,才能解决虚拟度的问题。技术细节,时间原因不展开。我们把这件事情做到了以后,相当于对于表情做了细腻度的刻画,做了一把尺子出来,有了这个尺子之后,怎么定义135种表情就简单了。
比如说绝望和失望到底是什么样的表情呢?它的心理状态是不一样的,看到由算法归纳出来的数据以后,确实它找的是对的,是符合我们对语言的定义的。
有了这样一个非常细腻度的基础以后,我们再去参加一些学术界的比赛,更多的是低维度的问题,比如对人脸表情的识别,或者连续的愉悦度识别,对我们来说就是高维打低维了,连续两年我们蝉联冠军的道理就在这里。
刚才说已经把尺子做到这样细的颗度,我们能不能看到更多的应用呢?当然可以的,我这里展示两段视频,左边这个是一个真实录制的视频,右边是象素级合成的,没有任何的手工美工在里面,所有细节的运动都能出来。可以看到眉眼的运动,都能非常细腻度的刻画出来。
专家介绍
网易伏羲AI实验室虚拟人首席专家,负责研发了虚拟角色视觉合成技术,落地于网易多款游戏产品、在线教育产品及多地展厅的沉浸式展览、文旅景点数字化改造等项目,相关技术载入《(2020)中国虚拟数字人白皮书》,并在2021全球游戏开发者大会(GDC)上分享;发表学术论文 50 余篇(包括CCF-A类会议和期刊20余篇);蝉联图像视觉顶会 ICCV2021、CVPR2022人脸表情国际大赛(ABAW)双赛道冠军,获四项冠军一项亚军;率团队制定一项人脸表情IEEE国际标准;参与制定三项国际和国家行业标准。
文化元宇宙专委会介绍
中国文化产业协会文化元宇宙专业委员会(以下简称专委会),成立于2022年11月26日,由同济大学、清华大学、北京大学、复旦大学、上海交通大学等全国近30所重点高校知名专家学者联合中国互联网新闻中心(中国网)、中国外文局文化传播中心、国家对外文化贸易基地(上海)、国家版权贸易基地(上海)、全国资产管理标委会文化资产管理标准工作组、中国联通(上海)、浙文互联集团、南京文投集团、风语筑、恺英网络、视觉中国、喜马拉雅城文智能、捷成华视网聚、边界智能、数藏中国等一批领军机构和头部企业共同成立,是文化领域国内首家全国元宇宙社会组织,在文化类元宇宙行业组织中居于领先地位。
专委会核心理念:讲好文化元宇宙的中国故事,铸就社会主义文化新辉煌
专委会工作宗旨:高举中国特色社会主义伟大旗帜,全面学习贯彻新时代中国特色社会主义思想,努力推动中国特色文化元宇宙体系建设与发展
专委会主要目标:整合文化元宇宙相关各界的优势力量与资源,努力推动文化产业数字化、促进文化产业高质量发展、打造具有中国特色的文化元宇宙体系
欢迎加入中国文化产业协会文化元宇宙专业委员会!
责任编辑:
林雨欣 华东政法大学
校对人员:
孔庆莹、刘馨怡、况希萌、袁逸馨
版权声明:
如需转载,请务必注明文章来源于“文化元宇宙专委会”公众号,并请完整注明文章作者及相关出处。对未依此规定转载者,本公众号将保留追究一切法律责任的权利。
免责声明:
本文仅代表作者个人观点,不代表本公众号立场。