近日,超写实数字人林依走红网络,其写实逼真的表现打破了用户对数字人的传统认知,在业界再度掀起对“虚拟数字人”发展前景的热议。
同期,随着ChatGPT的横空出世,带动了AIGC应用程序的走红,业界普遍认为,将ChatGPT技术用于虚拟数字人领域,为数字人赋予“有趣的灵魂”,使得数字人在制造效率、使用场景、多模态交互以及分析决策层面将迎来新的突破窗口,数字人的实践应用也将进一步扩大范围。
据悉,马上消费金融(下称“马上消费”)或将于近期推出消费金融行业首个企业级“虚拟数字人”,作为科技驱动型金融机构,马上消费在数字人技术研究上又有哪些突破?如何看待未来数字人的发展趋势?针对这些问题,记者走进马上消费,专访马上消费人工智能研究院副院长夏粉。
问:把技术当作第一驱动力的马上消费,为什么选择在这个时间推出“虚拟数字人”?
夏粉:事实上,马上消费早在2020年已开始着手布局元宇宙,组建相关的团队。经过三年的“厉兵秣马”,马上消费在其消费场景上实践了数字人技术。
金融行业对数字人的需求点与其他行业(如游戏,影视等)有所不同。需要考虑在原有的平台(比如传统的web端)嵌入数字人服务,不会为了数字人搭建一个新平台。而AIGC技术的突破,更好地扩展了数字人的使用场景,不仅为数字人提供了更贴近真人的对话能力,也提供了更多的行业知识,使数字人可以更好的为人们提供服务。两者的结合完全有可能成为元宇宙世界中最为基础的交互单元与最早落地的应用场景。
问:众所周知,数字人在降本增效方面已展现巨大的商业价值,但规模化落地依旧困难,您认为这其中存在怎样的技术卡点?
夏粉:为企业降本增效,提升用户体验,我们会面临一个非常大的问题:高精度、高品质的数字人对设备要求也高,且由于GPU对其渲染所需要的算力极大,导致超写实的数字人无法在传统web端内嵌入运行。但是我们选择使用数字人,如果为了降本增效而降低用户体验,是舍本逐末的。我们希望把最完美的数字人展示给我们的客户,让我们客户能获得视觉上的最佳体验,让我们的数字人不再是一个看上去有点呆板的形象,而是更像真人。
问:针对刚才您提到的高精度数字人模型处理问题上,马上消费有解题之道吗?
夏粉:针对这个问题,我们首先提出了云渲染的解决方案。通过云渲染的方式,将高精度的数字人放在云端服务器进行渲染,客户端的操作指令传入服务器后,服务器将指令传到云渲染平台,云渲染平台将复杂的图形运算处理后,将画面传输回客户端。这样我们就解决了高精度数字人模型无法在传统web中嵌入的难题,在任何轻量级终端设备上都可以展示我们的高精度数字人。
问:除了上述的难题外,未来数字人发展还面临哪些挑战?
夏粉:挑战很多,比如用户在弱网环境下的操作,如何最大程度提升用户体验。关于这点,我们首先使用了TCP协议实现长连接,采用长连接池,节省握手时间;采用ProtocolBuffer来减少冗余数据;加入重试机制,提升成功率等一系列的办法,尽一切可能提升用户体验。
除渲染问题外,数字人的口型也是决定用户体验的关键因素。我们在看一个人说话时会偶尔关注口型是否与所说内容一致,如果不一致会影响我们对说话内容的理解。针对数字人的口型,我们打造了自己的数字人音口同步专利技术,让数字人在说话的时候口型与文字完美匹配,且在口型同步的同时支持多种情绪的表达方式,让数字人有更真实的情感表达。
问:马上消费计划什么时候推出“虚拟数字人”?
答:整体而言,马上消费已经具备了推出虚拟数字人的科技实力,打造一款能基于技术很好地进行情感表达、与用户交互、“有血有肉”的“虚拟数字人”。至于什么时候对外亮相,会选择一个成熟的时机,也给大家保留一个悬念。
始终保持着务实、专研的企业精神,这也正是马上消费一贯坚持的科研作风。正如清华大学新闻学院教授、博士生导师沈阳在技术发展思考中所指出的:在市场火热情绪的推崇下,我们往往忘记,任何技术的发展都是要遵循积累和进化的规律,需要研发企业有足够的耐心和毅力,才能取得实质性的突破,遵循规律、埋头干事的企业往往能取得更扎实的技术优势。