每经记者:陈婷
■行业属性:虚拟数字人
■估值/融资轮次:2021年11月,中科深智获得晨山资本约千万美元B轮融资。
■核心竞争力:自主研发CLAP算法;多模态驱动技术;3D AIGC产品
■未来关键词:元宇宙时代;AGI;AIGC
2月25日,OpenAI CEO萨姆·阿尔特曼又一次公开提到了AGI(通用人工智能)。
在他发表的文章中,这位当下全球的焦点人物强调了OpenAI的使命是确保AGI造福全人类,他认为,AGI如果被成功创造出来,可通过增加丰富度、推动全球经济发展以及帮助发现改变可能性极限的新科学知识,帮助提升人类。
ChatGPT,这一近期引爆全球关注的“新物种”,是由Open AI于2022年11月30日推向世界的,也就是说,萨姆·阿尔特曼可被称作“ChatGPT之父”,与此同时,他也是AGI的推崇者和践行者。
在人工智能这条通往未来之路上,耕耘的人千千万万,中科深智创始人兼CEO成维忠便是其中一员。与萨姆·阿尔特曼以及他所开创的Open AI相比,成维忠以及他所创立的中科深智选择了一条更具差异化的竞争路线。
成维忠本科毕业于中国科学技术大学物理系半导体专业,研究生毕业于复旦大学世界经济研究所,曾在中兴通讯、光明乳业、北纬科技等上市公司任职。作为创业老兵,2016年,他又创建了中科深智,创始团队没有选择Open AI的大语言模型方向,而是选择了虚拟人动作和表情的生成技术这一较为小众的切入点。
究其原因,在接受《每日经济新闻》“对话未来商业”栏目(点击直达专题:对话未来商业|记录、预见、让未来发生)专访时,成维忠向记者透露,ChatGPT突破的大语言模型被业内视为AGI的“圣杯”,是大厂必定涉足的战场;中科深智的创业团队审时度势,坚定了作为一家创业公司应避其锋芒的自身站位。
与Open AI路径不同,但与萨姆·阿尔特曼对AGI的狂热相似的是,在接受记者采访时,成维忠不止一次提到了“信仰”二字,而他的信仰便是“技术”本身。
“对于我们这些做技术的公司来说,如果只是为了赢利,却不能发自内心地把技术做好,公司可能会很快死亡。”成维忠说。
但眼下,推出仅两个月便俘获全球1亿用户的ChatGPT,已引发了外界对于“元宇宙时代是否能真正到来”的质疑,乃至对虚拟人前景的担忧。
ChatGPT引爆全球关注 每经记者 刘雪梅 摄
对此,成维忠表示,ChatGPT能够提高虚拟人的智力,“但虚拟人的表情动作还是需要我们用其他大模型来解决。”在成维忠看来,元宇宙和ChatGPT不是替代关系,元宇宙是下一代互联网的代名词,是一个更大范畴的概念,“除非有一天我们证实了下一代互联网不是以3D视觉、沉浸式环境为主的,那么元宇宙的概念就没有被推翻。”
他表示,ChatGPT之所以能一炮而红,并不仅仅是因为技术上取得的成果,而是因为ChatGPT的出现预示着下一代互联网整个交互方式的改变。
成维忠认为,互联网发展可以分为三个阶段,第一个阶段时PC互联网时代,第二个阶段时移动互联网时代,第三个时代,则是元宇宙时代。他认为,元宇宙时代的关键词是“Conversation”,即人机的拟人化交流。基于这个认知,ChatGPT等LLM不可或缺,“生成式AI虚拟人也不可或缺”。
“这个方向真的被我们押中了”
带领中科深智走到现在,成维忠多少有点“赌”的成分。
“2015年,我和创始团队就在讨论,如果再创业,我们是顺着原来移动互联网的方向走,还是找新方向。”成维忠回忆。
当时,移动互联网创新的机会点已经越来越少,成维忠和创业伙伴们将眼光投向了下一代互联网。当时还没有完整概念的元宇宙,成为他们押注的未来。
“我们当时在想,下一代互联网,无非要么做场景的技术,要么做物品的技术,要么做人的技术——我们觉得人的技术更重要。”成维忠说。基于这些考量,起步时,成维忠就给中科深智下了这么一个定位:围绕虚拟人动作和表情的生成技术,为各行各业提供以软件和算法为主驱动的内容生产工具。
当记者问及为何不选择大语言模型赛道时,成维忠说:“我觉得如果大厂一进来,肯定会把我们‘灭掉’。”
中科深智创立于2016年,那是一个人工智能方兴未艾的年份。不到一年前,2015年12月,Open AI诞生,在成立时的定位是一家非营利机构,由阿尔特曼、特斯拉创始人马斯克、PayPal联合创始人蒂尔等硅谷科技大佬参与创立,承诺投资10亿美元。
“成立的时候,Open AI起的调子就挺高的,当然不像现在这样全世界都知道,但我们(业内)那时候都知道。”成维忠回忆,当时,Open AI计划做开源的大语言模型,“虽然那时Open AI的方向没有现在这么清晰,因为它现在用的底层技术是2017年谷歌才发布的。”
即便如今大名鼎鼎的Open AI,当时也不过是初出茅庐的状态,但包括成维忠在内的业内人士已经意识到,具备强劲资金基础的大厂迟早会将大语音模型作为重心。
之所以如此确信,与大语言模型的特殊性有关。成维忠透露,一直以来,ChatGPT所取得突破的大语言模型被业内视为AGI的“圣杯”。
“人类资料中,最全面的信息便是语言的信息,样本量是最大的,知识体系是最丰富的,做训练就会比较容易。”在此基础上,不少美国专家有一个基本观点:用数学的角度来看,人类的大脑和语言的数学结构相近(隐马尔可夫模型),如果这个假设成立的话,通过语言的不停迭代训练,在取得了大的突破以后,AGI便实现了。
虽然打定了主意不做大语言模型,中科深智一开始还是走了一段试错之路。
“早期,可选择可尝试的过程很多,一直到2017年谷歌推出Transformer,我们找到了方向,慢慢道路就清晰了。”成维忠提到,ChatGPT的底层技术也是Transformer,“当时,谷歌基于Transformer做了很多demo,我们也很兴奋,慢慢就把精力聚焦到这个方向上。”
无论Open AI,还是中深科智,将技术重心压到Transformer上,都冒了非常大风险。
由于早期一直专注在底层技术的研发,没有做太多商业化的事情,所以中科深智早期的研发费用都是由团队自掏腰包筹集的。2019年,公司推出第一代较为成熟的产品,情况才有所改善。2020年,在创立四年之后,中科深智终于获得千万级天使轮融资。
下一个转折点发生在2021年。企查查显示,这一年年初,中科深智获得著名投资机构金沙江创投领投的数千万人民币A轮融资。2021年11月,中科深智又获得了晨山资本约千万美元的B轮融资。
也正是在这一年,成维忠觉得自己“赌对了”。
“从整个发展趋势来看,这个方向真的被我们押中了,我们感觉自己做得越来越对了。”成维忠说。
在理想与现实中取得平衡
金沙江创投在官宣关于中科深智的融资消息时,时任金沙江创投主管合伙人的朱啸虎表示:“未来将会是消费互联网与企业服务并重的10年,我们持续看好用各类新技术为消费大场景B端赋能的初创企业。”
获得明星投资人的青睐固然是好事,但作为技术出身的一名创业者,成维忠始终还有一种“壮志未酬”之感,他希望资本能够看到中科深智更多的技术价值。
成维忠说,“投资人对我们有信心,是因为他们觉得我们在虚拟人领域的确是一家领头的公司——一方面是我们做得早,另一方面我们也很聚焦。”
成维忠表示,国内投资人更看重具体的产品落地,关注核心业务在市场上的表现和应用前景,“和他们讲一些特别‘飘’的事,他们不大感兴趣。”
这或许也是中科深智较晚才获得第一笔融资的原因。
成维忠回忆:“在那个时间点,我们觉得最痛苦的事就是,虽然我们认为这个方向很重要,但在和VC对话的时候,我们很难讲清楚具体的实现路径——我们认为路是能走通的,但具体该基于什么大模型来做,有很多种可能性和不确定性。”他清楚地记得,当时有投资人对他说:“既然你们觉得很重要,你们自己先砸钱再说。”
因此,公司创始团队在早期,都是自掏腰包支撑公司的发展。
交谈过程中,Open AI在美元资本助推下的崛起之路也让成维忠感慨。在他看来,国内的资本市场逻辑和环境,更注重快速和短期的回报,会给在垂直领域推进生成式AI技术研发的企业带来压力。
守得云开见月明,获得明星资本押注也算是阶段性成功。在平衡资本的现实诉求和己身的技术理想的追求之间,中科深智已经走出了一条独有的发展路线。
成维忠向记者介绍,中科深智定位为生成式AI虚拟人和3D AIGC技术公司,发展到现在,主要为三个部分。
第一个部分是底层算法,用成维忠的话来说,是“自己觉得很宝贝的事”。据悉,中科深智的底层算法为自主研发的CLAP算法,即Contrastive Language-Action Pretraining算法。
第二个部分是虚拟人业务中台Motionverse,资料显示,这是一个多模态动作生成驱动引擎,该引擎融合了XR和AI技术,可以用传感器、语音、视频等多种方式让虚拟人动起来,随时与用户互动。成维忠将这部分定义为“外界觉得很重要,公司内部也觉得很重要”的部分。
第三个部分即3D AIGC产品。这一部分,在成维忠看来,是投资人更为看重的部分。
产品方面,以单个产品为例,针对市场需求,中科深智推出了“自动播”虚拟直播产品,让虚拟主播们全年无休地滚动直播。据中科深智提供的数据,其虚拟主播产品已经服务了超过2000家客户,占据主流电商平台虚拟主播近70%的份额。
“整个市场是不停变化的,今年一个产品很好,三年以后还火不火很难确定。但是算法方向是一旦走顺了就会越来越顺。所以我们认为底层的东西会更重要一些。”成维忠说。
知止而后定,说到业务范围,中科深智保持谨慎,“脱离开技术的事,比如说打造IP,都不是我们的业务范围。”成维忠说。
事实上,成维忠认为,一家技术主导的公司在推出产品的时间点上需要多方考量。
“为什么ChatGPT火成这样了,Open AI还是没有推出产品?”成维忠分析,“一方面,是Open AI的团队认为算法是不够成熟的,在这种情况下,大量地推出产品可能会令用户感到反感。另一方面,在一家公司不考虑营收和产品的时候,这家公司就可以all in到算法的迭代中,算法的迭代必然会比较快。”
成维忠认为,如果一家公司算法的迭代还没到一个理想状态就下场做产品和服务解决方案,“这自然会难受一些。”
超级虚拟人助手:元宇宙时代的入口?
伴随着ChatGPT的一炮而红,不少质疑声袭向了虚拟人乃至元宇宙赛道。甚至有观点认为,随着ChatGPT成为焦点,虚拟人乃至背后的元宇宙,都会成为“明日黄花”。
成维忠显然不认同这一观点。在他看来,ChatGPT的出现加速了元宇宙新时代的到来,未来,会出现超级虚拟人助手担当“元宇宙时代的入口”这一角色。
“我们过去互联网的交互方式是菜单式的,菜单式的交互方式是科技发展的结果,与我们人的本能差距是非常大的。”成维忠说,“人类本能交流方式是通过声音交流,或者面对面交流。”
在他看来,ChatGPT提供了新的可能性:“现下,ChatGPT提供的是文本的会话,之后也可以通过声音进行交流,在对于未来的进一步想象中,对面也可以是一个虚拟人,我们和虚拟人进行沟通。”
也就是说,在成维忠预想的未来中,当前人们习惯的文本会话,很快会变成声音的会话,并最终演变为声音加视觉的多媒体会话。也正是因此,成维忠认为,作为新时代的入口,虚拟人在未来世界中的地位不可撼动。
这一切的前提,是虚拟人技术的进一步成熟。值得一提的是,虽说业内大都认为ChatGPT能够提高虚拟人的智力,并赋予虚拟人以“灵魂”,单就技术层面而言,距离一个理想中的虚拟人真正到来还有一段路要走。
成维忠提到,ChatGPT并不能解决虚拟人人机交互的所有问题,如果想要一个虚拟人笑起来、像人一样走路,就需要中科深智这样做虚拟人动作表情驱动的大模型算法。“从技术的角度来说,虽说ChatGPT会极大提升虚拟人的智力,但是它并不能让虚拟人跟人的交互变得更为流畅、更为生动。”成维忠说。
这条路要走通,资本的支持必不可少。ChatGPT带动的这场“狂飙”,能否给中科深智的发展带来更多机会?资本们的态度会不会发生新的转变?
“我不确定。”成维忠很快回答。在他看来,当下外界的关注度更多集中在大语言模型上,未来一个明显的转折点可能会发生在GPT4问世之后,“GPT4的侧重点可能会从语言大模型到多模态学习上,等到那一天,VC可能会觉得针对垂直行业的多模态训练才是未来比较诱人的方向。我坚信这一时间点会到来。”
而多模态训练正是中科深智的擅长领域,通过多模态驱动技术,中科深智让虚拟人更有活力地与人交互。
成维忠向记者表示,所谓的多模态训练,是当人输入一个文本信息到虚拟人时,ChatGPT可以将这个文本处理成虚拟人可以理解的语言,但在之后的阶段,虚拟人具体如何动作,便与ChatGPT这一语言模态无关了,需要更多模态的参与。
当前阶段,ChatGPT的出现已给中科深智在一级市场带来了一定利好。至少,成维忠感觉到,当他跟别人谈起中科深智到底是做什么的,听得懂的人越来越多了。
在他的预判中,虚拟人的发展会比元宇宙快一步,“虚拟人技术虽然是元宇宙原生技术的一部分,虚拟人本身也是一个交互工具,解决了交互问题,对互联网的交互升级会起到关键作用。”
他认为,在元宇宙真正到来之前,未来3到5年内,只要有屏幕有网络的地方,便会有虚拟人的身影。
每日经济新闻