2023年2月16-17日,「冰城论道暨第24届中国智能视听与科技创新高峰论坛」在哈尔滨隆重举行。本届论道以“破界·共生”为主题,邀请到了智能视听领域的企业翘楚与行业领袖莅临齐聚,围绕新时代下的破界、破局、破壁与共生、共创、共赢等话题,全方位展望产业的趋势动向。
在16日下午举办的「技术赋能视听论坛」上,与会嘉宾聚焦诸多新技术、新业务,探讨了视听的新可能。会上,中科深智行业解决方案总监洪峰进行了主题为《中科深智数字人赋能OTT行业——开启元宇宙之旅》的演讲。
以下为演讲全文:
各位好,这是我第一次参加流媒体网论道,感到非常高兴。中科深智在广电行业,包括IPTV和OTT行业还并未被大家知晓,希望通过这样的机会跟各位有比较深层次的讨论。数字人、元宇宙概念,从去年开始就特别火爆,非常巧合在这两个月ChatGPT又大火了,所有的受众破圈理解,我们今天做一个比较直观的讲解。
前两年,包括广电、电信有非常多的行业客户或者是偏娱乐角度的客户都讲虚拟人,虚拟人有非常多的背景,也使得虚拟人产业不断延伸,第一块是底层技术的不断发展,包括算力、计算资源、网络资源、存储资源等底层技术的发展,第二个是应用角度,或者说不同跨界行业的角度,比如说一些CG的玩家,动画的玩家进来实现多融合的行业交融,同时,客观来讲,这么多数字人并没有找到一个非常好的特别落实的应用场景。
以虚拟人的全面表达,赋予元场景服务的基本能力
前两年元宇宙厂家很多,而去年开始很多不断没落。中科深智成立于2016年,核心团队成员来自北大、中科大等著名高校,公司总部位于北京,在数字人和元宇宙领域已经有一些积累,今天我从政府相关的一些政策引导的角度做一些分享。
首先,上海、北京、成都、武汉、苏州、杭州等城市不断发布元宇宙的政策,我们公司在北京,但是我在上海,我们深度参与上海和北京两块元宇宙相关的场景招募。越来越觉得说元宇宙的一些应用场景和相关的一些行业应用正快速落地,比如说最近在上海有一个非常有意思的现象,国家相关部门组织各种大型的需求方发布了20个重大的项目,他们把元宇宙希望达成的目标或者是需求非常明确表述出来,由各位供应商去做落地。而且希望能够达到更多的商业价值的变现。我们公司也参与其中。另外我们公司在北京也不断参与政府的相关项目。
作为中科深智来说,先介绍一下公司背景,中科深智早期是做动画和影视相关工具业务的,从2019年开始把所有的应用场景跟相关的技术做了一些深化,更加聚焦于AI生成式的动作表情的实时生成。
我们作为链主型“元企业”,上下链都需要人的情况下,就需要我们底层的驱动和架构,我们拥有深厚的原创技术和专用数据积累,并基于Transformer自研了虚拟人动作和表情生成的大模型CLAP。中科深智目前做了三件事情,或者说基于生成式AI虚拟人技术做了三件事情,第一块是生成式的动作和表情的实时驱动。第二件事情是做生成式的3D建模和资产数据,照片生成后可以直接捏出人,游戏行业比较多,我们更多偏向工具类的东西。第三块更加聚焦3D AIGC内容的生产工具,底层有一个逻辑基于多模态的输入方式,不管是语音文字声音甚至是音乐、语义作为我们其中一个输入,作为AI creator中间的算法层,最终实现一个稳定的 SDK。
我们目前会不断发展相关的应用集成商,目前已经在各个不同的领域,包括教育、医疗、文旅等等,最终服务于不同的屏,包括电视的屏,手机的屏,一体机的屏,AR和VR屏等等。从品牌合作方的角度来说,目前比较主流的一些主芯片以及操作系统,从AI和VR的角度也已经配合,我们希望能够打造一个所谓数字人的底层基座,能够不断的服务于上下游客户。
中科深智团队规模接近150人,80%左右研发人员,我们在上海、北京、郑州都有分公司,目前来说我们定位是以生成式AI虚拟人技术为基础的公司,有两个部分需要着重强调一下,第一块基于我们自研的CLAP算法模型,我们做了相关的底层基座应用驱动Motionverse虚拟人业务中台。第二块我们也自己有一些偏SaaS类的产品,目前为3000多个品牌提供了数字人及数字资产服务。电商虚拟人直播市占率70%+。
关于数字人的发明专利,已经有将近80项发明专利,应该来说处在比较偏头部的位置。此外我们公司还有一些资本领投的介入。
下面讲下合作伙伴的案例,目前在数字人领域,和英伟达的合作是比较主要的。我们还开发了国外的一个平台,多模态驱动接入VRChat平台驱动虚拟人,供所有的用户直接使用。
中科深智生成式AI虚拟人
ChatGPT使用两块东西,第一块语言模型,第二块做了语言文字相关的预处理,中科深智动作和表情生成过程当中,并没有采用传统的比如说以动作库或者口型因素等等的方式去驱动,而是采用了更多训练级的模型,自己来形成一个更好的生成方式,比如最近会有很多篇文创类、音乐类或者舞蹈类,甚至戏曲类的合作方来找我们,他们希望能够统一做相关的一些生成,但是这些东西都会有非常专项性的东西,我们公司在底层的一些基础算法的模型上,包括大模型和数据上,可以针对这样类型偏专业和垂直类的一些行业,做专门的强化训练,以达到更自动化或者说更千人千面的驱动模式。当然,在驱动形成之后,还有相关的一些解码的功能,以及立项的功能,可以符合各种不同人的一些驱动。
这里需要说明一下,任何不同的音乐,我们会根据不同的节奏以及之前学到的一些相关的数据和整体表情和动作一起去生成预测,也就是说每个音乐甚至是同一个音乐在背后都有不同。
具像化描述一下,底层是中台平台,包括多模态的输入,比如说摄像头的输入,中间通过专用的数据集和生成式的模型,最终输出标准的SDK。再比如,大家对动作捕捉会比较熟悉,通过光学或者说是惯性的方式,把数据一对一的录入到相关动画的骨骼,比如通过3个或者5个check,其他的部分都是以深层次的方式,要坐要跳要动,甚至说通过语义的依据直接可以把人做相关的一些驱动或者是直接生成出来,这就是所谓的生成式AI,不同于传统的动作捕捉以及调用相关动作库。这里是标准的SDK输出,纯粹的动作输出数据或者是表情的数据,不管是在本地或者是云端,我们只是输入数据和驱动数据的部分。有很多合作方找我们,我们提供包括动作以及相关的渲染能力给他们,同时匹配不同的引擎一起输出,这样可以帮助他们提供一站式的服务。
我们相对标准的SaaS产品,一共分为三类,一块是我们已经服务于三千多家电商客户的或者是品牌类客户的AI电商和虚拟人直播工具百宝箱——自动播、。第二块是AI快速动画生成系统——自动画。第三块是类ChatGPT以文本的方式来做交互,虚拟人实时交互和应答系统云小七,比如说对话人的方式,就是由人直接驱动的方式,给各位提供服务。
做两个补充,第一块从虚拟人的交互,交互的角度背后需要很多的技术,从虚拟人的角度所谈到的渲染所需要的时间其实已经控制在200毫秒以内,而且我们希望整个的交互的时长控制在1.5秒之内,第二块目前我们正在赋能不同的行业,不管是在小屏端还是大屏端,有更好的一种交互模式,就比如纯语音对话,我如何便捷的能达到我的目的,可能会有更多的卡片或者开发的方式供各位做交互。
最后是生成式3D建模和资产处理的功能,国内我们可能不会做,但是我们有海外的股东,目前在海外即将开放一个平台,这个平台我们可以提供给开发者自行去做可能会支持更多的一些创作者去做开发,包括上NFT等。
我们可以基于照片生成的3D虚拟人,同时还可以基于声音克隆的数字人声音生成,我们基于自研的底层算法模型、生成式AI虚拟人和Motionverse业务中台,打造了系列3D AIGC产品,包括AIGC后期的一个生产,并通过我软件自动的制作短视频。
我们有一个短视频制作工具,也是偏公网的,有一部分是可以进行私有化的部署,目前服务超过三千多个品牌,一块是偏向IP的合作,包括CG动画的创作者等等,他们没有办法让这些人适当的动起来,我们来帮助他们实现高性价比的人的驱动。
垂直行业的服务合作
我们以生成式AI虚拟人技术为核心,打造Motionverse虚拟人业务中台,该中台可支撑开发和迭代各类应用产品,同时也可通过API、SDK等方式赋能给第三方合作伙伴,支持不同行业、不同合作伙伴各类虚拟人业务和元宇宙业务落地。包括金融领域、文旅类项目、一些高校的合作等。
我们服务于多个行业,有不同的合作方,包括手机终端,也包括一些金融合作领域的合作交流等等,有一个合作:数潮星球,实际上是中影旗下的一家公司,目前来说从云宇宙的空间到相关的ToB服务等等都是我们做的。
还有偏文旅类的项目,目前我们也在介入,我们可以看到三星堆在抖音上的直播,包括上海市文旅局的展厅大屏都是我们做的,还有华住酒店小程序上面做的案例,我们还和腾讯合作一个曼秀雷敦的发布。
还有元教育,我们和学校的合作,例如西安外事学院XR拍摄系统,北京邮电大学人工智能学院,无锡商业职业技术学院,江西科技师范大学,云南大学等等,在学校里面匹配他们的一些教学工具。
回到今天的主题,在整个OTT和IPTV大屏端上如何展示,刚才各位专家分享无论是网络层、算力层、应用层,包括运营层面的应用,我觉得在大屏端可以探讨出非常多的应用场景。
最后,再强调一下中科深智做的几件事情,第一件事情比较垂类把底层数字人的自动驱动做好,第二件事情做好这个事情底层所有的算法,一个是大模型,第二个是大的数据,第三件事情,偏向垂直行业的强化训练,这个部分我们也在不断做积累,我们希望在大屏端找到更好的应用场景,跟大家一起共创未来。
谢谢大家!
推荐阅读
「冰城论道暨第24届中国智能视听与科技创新高峰论坛」圆满落幕
看见风向标丨破而后立·拓界共融,第七届金屏奖圆满落幕
探营丨冰城论道最前线,带你一览大会筹备实况
本期编辑/胡笑柯