据IDC预测,中国数字人市场规模预计到2026年达102.4亿元。这其中不仅包括正在快速发展中的B端市场,还有被视为潜力股的C端市场。尤其是在AIGC大模型高速发展的当下节点,数字人的渗透率将会增强。
目前,诸多厂商已经入局。
今年8月,华为宣布推出盘古数字人大模型,可帮助用户 12 小时完成数字人生成。此前腾讯推出了一些基于特定场景的虚拟数字人,如平安普惠数字员工、新华社主播“新小微”、航天员“小诤”、3D手语翻译官“聆语”、故宫博物馆导游“福大人”等。阿里巴巴的虚拟数字人为自身业务需求服务,仍是以直播带货为主......
那么,在AIGC大模型浪潮下的数字人发展情况究竟如何?数字人将会应用到哪些场景?面临哪些技术挑战?成本多少?本篇内容采访了心识宇宙产品VP陈阳、世优科技创始人&CEO 纪智辉、行业从业者李元(化名)等,试图解答上述问题。
腾讯发布《数字人产业报告》中,将数字人界定为“以数字形式存在于数字空间中,具有拟人或真人的外貌、行为和特点的虚拟人物。”
2023年,随着AIGC的强势崛起和类ChatGPT语言大模型的问世,数字人赛道变得越发热闹起来。开始频繁出现在各大应用场景,以及文旅、电商、金融等多个行业,形形色色的虚拟数字人正代替真人,充当着代言人、主播、播报员、客服和智能助理的角色。
市场的参与者也肉眼可见变多。互联网大厂、创业公司、老牌AI公司和一些此前做智能客服营销的数字服务商和资方都躬身入局。
锐观网数据显示,截至2022年12月,中国数字人行业投融资事件超过140件。据IDC发布的《中国AI数字人市场现状与机会分析2022》报告中,预计到2026年中国AI数字人市场规模将达到102.4亿元。
对于数字人产业越来越热的现象,多位受访人总结出三个原因。
一是从技术上来看,AIGC的出现解决了数字人“只会念稿、不能交互”等诸多痛点。 生成算法提高了内容创作的效率和便捷性,降低了成本和门槛,同时还丰富了内容创作的多样性和个性化,满足了用户的不同需求和喜好。自然语言处理大模型有助于提升数字人交互体验,让数字人从过去的“没有大脑没有灵魂”找到了一个比较好的出口。
与此同时,建模渲染、 AI生成动作捕捉等技术也在不断的进步,让整个数字人的表现比普通的 AI机器人更加像自然人,对信息、知识的挖掘和梳理更充分,对语句的处理更加贴近人类的日常交流表达习惯。
二是90后、00后为代表的“网络原住民”,对虚拟角色的接受程度逐渐深入,很容易对虚拟角色投入情感。
三是国内数字经济的进一步发展趋势下,让企业降本增效的经营需求起到了助推作用。
行业从业者李元(化名)同意该观点,并以直播场景为例解释,真人直播需要花费一定成本来搭建直播场景,而且随着抖音、美团等平台开启本地生活直播,人才缺口也是一个问题,数字人恰好能填补这个缺口,而且能够做到7×24小时无休。
“公司通过AI技术在数字人‘造人、养人、用人’三个不同阶段均实现成本控制、规模化生产能力。在AI产品方面,今年世优科技推出了世优BOTA、世优AI数字人直播系统AI数字人产品体系。通过AI与数字人的结合应用,实现批量化打造虚拟人,为行业降本增效。”世优科技创始人&CEO 纪智辉说道。
当前,数字人的应用越来越广泛,无论是B端还是C端都出现了数字人的身影。清华大学发布的《虚拟数字人研究报告2.0版》显示,数字人已经渗透到各行各业,成为新一代的生产力和创造力。从头部企业的布局来看,数字人产品服务在B端占有79%的市场,而在C端占比36%。
在数字人的B端应用场景方面,心识宇宙产品VP陈阳坦言:“主要是做客服、营销、文旅导游以及AI直播等, 因为AI直播本质上也是在与观看直播的用户互动、回答用户提出的问题。难点在于数字人客服如何快速的为交流对象提供正确的答案?基于ChatGPT大语言模型,数字人可以得到很多信息,但同时也会出现无法准确回答交流对象、甚至是编造答案的现象。这对客服场景会带来致命的伤害。”
在数字人的行业应用落地方面,IDC的相关报告介绍,金融行业是当下数字人应用相对更成熟的领域,到2025年,超过80%的银行都将部署数字人,承担90%的客服和理财咨询服务。 例如浦发银行是国内最早“聘用”数字员工的银行,目前3D数字人“小浦”已经在20多个岗位任职,包括财富规划师、文档审核员、大堂经理、电话客服等。
此外,企业的数字人可以与内部系统绑定,员工可以跟它交流了解公司的规章制度,查询各种信息等。
未来,数字人将在医疗、教育、制造等多个领域发挥作用,例如在医疗领域,数字人可以作为认知智能大模型,辅助医生进行诊断和治疗;在教育领域,数字人可以作为个性化教学助手,帮助学生提高学习效果。
接受采访的几位业内人士都表示,未来C端也是一个比较有潜力的市场,未来可能人人都会有一个属于自己的数字人,但从成本、技术、设备来看,还需要经历一段时间的发展。
想要躬身入局的企业,需要懂得计算投入产出比。
目前,数字人分为两类,一类是由人驱动的“中之人”, 是指依靠人力驱动虚拟主播进行直播,这种驱动方式需要进行大量的拍摄及后期工作,成本较高,众多3D虚拟人采用的便是中之人驱动。
另一类是AI驱动数字人, 指通过使用机器学习,喂养数据等方式训练数字人完成特定的任务。这类数字人通常应用于工作重复量高的服务型场景,目前在直播间带货的2D真人数字人大都属于该类。
3D数字人往往以动画人物形象出现,适用于虚拟IP的打造。对于该类型数字人来说,从面部轮廓到服饰场景都需要自定义打造,成本通常会更高,制作周期也会更长,报价超过20万元。
例如英伟达曾在官方博客中称,黄仁勋虚拟人在发布会上出镜的14秒视频,共有34位3D美术师和15位软件工程师协同参与,总计近千工时。
这样高昂的成本得到了李元的证实,“在传统的3D建模技术下,一个能看得过去的定制数字人,需要几十万的成本,这还只是冰山一角。”
据世优科技CEO纪智辉介绍称,市场一般将数字人成本分为3部分,即造人、养人、用人。第一部分是造人,通过角色创意、原画、建模、绑定、表情、实时渲染等环节,可按照风格生产出卡通Q版,迪士尼人形、二次元、次世代、美型写实、超写实等不同风格。价格从几万到上百万不等。
第二部分是养人 ,当数字人被造出之后,还需要低成本、高频不断的输出内容,用数字人生成内容,养出IP认知度。例如数字人需要出一条短视频或者一条TVC广告片,其成本则是根据内容的精度、效果以及脚本内容不同等因素来决定,一分钟成本从几千、几万到几十万不等,主要取决于脚本的难易程度。
第三部分是用人 ,主要是指数字人生产内容后所应用的场景。“ 目前,世优科技在用人方面涉及十大应用场景,包括广电媒体、品牌营销、电商直播、短视频、政府文旅、教育娱乐、影视剧、 AR/VR/AI 、NFT、元宇宙等各类线上线下场景。比如数字人做虚拟主播、媒体记者、活动主持人、线下展厅接待员等等。根据客户的项目需求,涉及相关执行的成本。”纪智辉说道。
不同类型的数字人所产生的成本差异较大,应用AI生成技术研发的2D数字人相比之下,成本便宜很多。“整体来说,2D数字人的成本只有3D的1/10或者1/20,这是目前相对接地气、市场上容易接受的水平。”纪智辉说道。
世优科技拥有2D数字人相关产品线。2D不需要建模,生产过程也相对简单,主要是通过拍摄一段真人视频后通过AI技术训练而成,造人成本只需要几千块钱。在养人生成内容方面也只需要输入脚本,数字人就能讲话做到对外输出,养人成本只需要几块钱/分钟,之后会接近于0。
当然,2D数字人并不能适用于所有场景,在游戏场景和虚拟偶像这样的赛道中,企业只能使用高价的3D数字人,成本负担可想而知。而且无论2D数字人还是3D数字人,都面临着内容劣势。
今年5月抖音发布AI标识令,开始监管数字人这一新物种。在内容上没有竞争力,只会重复口播的大量2D数字人被封禁。纪智辉提到,因为抖音、快手、微信是内容与电商平台,所以主播必须提供高质量的内容。而AI生成的部分内容质量不高,平台就不给流量,最终导致了东西卖不出去。所以数字人实现高销量的带货,是需要配备运营团队、好的货盘等好几个因素叠加才能把带货ROI做好。
至于大众对于AI所引发的“换脸”、“永生”等风险的担忧,李元表示:“任何新技术的出现和应用都需要一些相应的规范,监管也在做出反应。今年1月份,有关部门就出台了AI生成内容的一些监管政策。市场内的正规厂商对此也很重视,这些厂商都有自我规范和要求。”
值得注意的是,当下大模型驱动的数字人产品仍处于应用落地的早期阶段。除了上述提到的成本制约因素以外外,业界普遍认为现阶段,技术成熟度和效率也仍然是数字人的难题之一。
有研究报告将数字人的特征总结为3点,但技术在这些特征上的呈现均有许多不足之处。
一是数字人拥有人的外观,具有特定的相貌、性别和性格等人物特征。
“如果客户不选择超写实数字人,即完全复刻一个真人的状态,那么数字人的外观技术已经较为成熟了,只是数字人的表情、动作仍有卡点。但是在没有真人动捕而是完全通过自我驱动的情况下,数字人很难呈现出自然的表情和动作。”陈阳说道。
二是数字人拥有人的行为,具有用语言、面部表情和肢体动作表达的能力。但不少数字人产品在语音、表情、互动表现上目前还比较生硬。
李元认为,由于数字人缺乏情绪、情感的表达能力,例如在感到生气或委屈时,无法用更丰富面部表情和更大的肢体动作来呈现,导致数字人虽然拥有了人的外貌、声音,却无法像人一样生动灵活的原因。
三是拥有人的思想,具有识别外界环境、并能与人交流互动的能力。
“虽然ChatGPT的出现赋予了数字人大脑,但如果市场希望刻画一个有特定个性,甚至有自己成长经历、世界观的一个角色,单纯使用ChatGPT很难实现,目前整个技术还不能很好的支持这个事情。”李元说道。
据悉,目前AI还不够智能,这导致智能驱动型(TTSA人物模型)的交互型数字人只能作为补充型的角色存在(游戏场景除外),市面上仍以真人驱动的为主,比如在视频直播和展台上的充当主播的数字人。
陈阳观察称,展台会用全息技术投诉一个角色与访客互动。AI驱动的数字人则主要是充当文旅导游,同时在一些淘宝直播间也会出现,在真人主播无法覆盖的时间段,会使用这样的数字人,应用场景比较有限。
不过纪智辉认为,随着AI技术发展,未来AI驱动型的交互型数字人市场可能会比较广阔。真人驱动型数字人会更适合进3D空间实时互动,比如3D数字人实时互动直播、元宇宙这样的应用场景。
从年初热闹至今,从业者与客户们也观察到,市场已经在呈现理性回归状态。一些喧嚣和割韭菜类的厂商与代理商等角色在加速出清,希望未来数字人真正为企业实现降本增效。
本文来自微信公众号“第一新声”(ID:thefirstnewvoice),作者:夏雨,36氪经授权发布。