采写/摄影丨南都·琶洲π记者 林至钦
张胜
广州灵聚信息科技有限公司创始人兼CEO
自1956年人工智能之父马文·明斯基提出“人工智能”的概念至今已有60余年,但关于人工智能技术民用普及和商业化的浪潮却迟迟未到。这几个月以来,OpenAI带动的ChatGPT以及大模型的热潮又为AI夺回了大众的关注点。人们也开始意识到,人工智能的商业化早已悄然开启。
在人工智能分支里,语音识别是发展最早且率先实现商业化的技术之一。自然语言处理(NLP)作为人机交互技术的重要一环,为此提供了重要助力。从2014年底亚马逊将NLP技术植入传统音箱产品开始,短短数年,智能音箱产业从无到有,迅速发展壮大。随着人工智能浪潮再次到来,NLP的进步也将成为推动人工智能整体进程的重要因素。
广州灵聚信息科技有限公司(以下简称灵聚智能)的创始人张胜正是热衷于NLP前沿技术研究的探索者。他的公司作为NLP技术服务提供方,已为华为、阿里巴巴、软银机器人、小米、思必驰、喜马拉雅、优必选等大中型企业的智能家居、智能音箱、手机、电视、平板、手表、车机、玩具、服务机器人等产品提供智能交互服务。
加速发展
服务国内超50%交互型服务机器人
2012年,Siri的宣传片震撼了无数人,张胜就是其中一位。“我当时非常吃惊,没想到AI技术已经发展得这么厉害了。”但他也很快发现,Siri的技术还有很多可以发展的空间。由此,张胜进入了人工智能领域。
于是,2013年,灵聚智能在广州成立。灵聚智能专注于人工智能核心技术之一的NLP及ChatBot相关技术研发。他们的NLP技术主要由开放域NLU(自然语言理解)、知识图谱、精准生成式模型和深度学习等部分构成。其中,前三者构成了灵聚智能的精准生成式应答子系统。自2015年开始,灵聚智能的NLP技术已经陆续应用于服务机器人、玩具、智能家居、数字人等多个领域。“我们的精准生成式应答子系统给出的应答内容是根据NLU、三元组知识图谱和精准生成式模型进行精准计算生成的结果,而不是简单的搜索匹配,并且弥补了当前大模型虚构事实的不足之处。因为应答内容简约、精准又快捷,响应时延能够控制在800ms以内,所以在智能语音交互领域工程化的效果也比较好。”张胜说。
在张胜看来,科普依然是扩大人工智能研究传播的重要课题。何为NLP?张胜告诉记者,从某种意义上来讲,语言表达是人类信息和思想交流的重要方式之一。人类并没有脑电波直达的交流,信息沟通是通过口头语言、书面语言、语气语调以及表情和肢体语言等完成传递的,而自然语言信息的人工智能处理技术就是NLP。
举个例子,一个完整的智能语音交互是由ASR(语音识别)、NLP和TTS(语音合成)三个技术配合完成的。ASR相当于耳朵,负责将音频转写为文字;NLP相当于大脑,要能理解ASR转写的文字是什么意图,并根据意图进行推理、分析和计算等处理,给出符合逻辑的应答结果,并以文字的方式输出;TTS相当于嘴巴,将NLP输出的文字合成为音频,让人类用耳朵就可以听到结果了。当然,在实际的工程化中,要面临很多复杂的细节问题。
“直至现在ChatGPT爆火后,很多自称热衷于人工智能研究的专业人士还是分不清ChatGPT与NLP的关系,ChatGPT与ChatBot(对话机器人或聊天机器人)的关系,甚至声称‘NLP已死’,‘ChatBot已过时’。”张胜告诉记者,如果把ChatGPT比作地球,NLP便是太阳系,而AI则是银河系。“简而言之,NLP是AI技术的一个分支,而ChatGPT是NLP的技术分支,早先被学界更看好的BERT也是一个分支,只是GPT先跑出了耀眼的成果。至于ChatBot,则是NLP技术的一种应用形式,所以有了ChatGPT的加持,可以预期ChatBot将会有更好的应用效果。”
今年1月,中国语音产业联盟发布的《中国智能语音产业发展报告(2021—2022)》指出,我国智能语音产业整体发展环境积极向好,多项关键技术取得突破,产业扎根不断深入,已形成大中小企业融通创新、协同发展的健康生态。从全球范围来看,2022年全球智能语音产业规模将达351.2亿美元,保持33.1%的高速增长;从我国来看,根据德勤统计数据,2022年我国智能语音市场规模将达341亿元,同比增长13.4%。
张胜介绍道,成立10年来,凭借着多次NLP前沿技术迭代,灵聚智能交互产品与方案的设计研发经验已服务超过1亿个各类智能产品,为11个行业开发提供解决方案,为国内超过50%的交互型服务机器人提供服务。
坚持探索
“为未来机器人做开放域交互”
张胜出生于1973年,从小对科幻书、科幻电影等都十分感兴趣。像《独立日》《机械公敌》《星战系列》《阿凡达》等科幻大片他从未落下,甚至反复观看。在他看来,科幻作品给人的启发是无限的。
1997年,他利用周末时间到学校“回炉”,深入学习计算机专业并在IT媒体里打拼;1999年,他在京创办《电脑自做》(PCDIY)杂志;此后进入赛迪集团,先后任中国电脑教育报社副社长兼高级副总编、赛迪网副总裁、《软件世界》杂志社常务副社长兼总编;2013年,在Siri“横空出世”不久后,“不安分”的张胜和他的合伙人——两个年过40的“老”男人来到广州联手创业,从成立之初就确立“为未来的服务机器人做大脑”的目标,人工智能的核心引擎“灵聚人工大脑”就此诞生,并在诞生伊始就确立了攻坚开放域NLP技术的目标,这在当时堪称疯狂之举。“在科幻世界里,人是不需要站在机器人面前戳着屏幕去交互的,所以我们认为未来的人机自然语言交互一定是趋势,正好我们有这方面的知识储备可以去落地实现。”张胜说。
作为灵聚智能的核心自研产品,灵聚人工大脑是将语义分析、知识图谱和认知计算等技术有机结合在一起的算法和数据集群,具备生成式和检索式知识表达能力,主要实现自然语言交互、自学习和认知等能力。不同于限定域(话题限制在某一领域)交互的服务机器人,灵聚人工大脑自研的开放域交互技术,可以使服务机器人拥有话题不限定的交互能力,从而大大提升了人机交互的体验感。2019年,其自主研发的开放域NLP技术获倪光南院士推荐,目前已广泛应用于大中型企业的企业对话式AI应用、个人对话式AI应用、数字人、服务机器人及AIoT产品。
为了更好为用户服务,为开发者节省时间,提高效率,灵聚智能提供了大多数场景只需要对接一次就可使用的快速接入All-In-One的API(应用程序编程接口),这就是灵聚对话式AI。
灵聚对话式AI是灵聚人工大脑融合多家GPT类技术和AIGC能力的升级版。其以API和APP的方式,为行业、企业快速赋能融合GPT类技术,具备智能交互和AIGC功能的对话式AI服务能力,为个人提供具有陪伴和秘书能力的智能助理。
“在智能语音交互场景下,一定是经典技术(张胜为了区分大模型,而称灵聚智能类技术为经典技术)+大模型合在一起才能解决人机交互响应时延控制在800ms内的问题,不然解决不了。”张胜告诉记者,AI大模型优势在于可以拥有绝对庞大的数据和响应范围,但矛盾由此而生,灵敏度和准确性难以同时保证,例如无法确保同一个问题每一次询问都得到同一个答案,因此应答准确性大打折扣。目前ChatGPT因生成式导致的虚构事实通过不断优化低于30%,但在严肃的业务场景中1%的虚构也会导致灾难性的后果。
而灵聚人工大脑经典技术基于开放域NLU、三元组知识图谱和精准生成式模型,可以做到精准生成式交互,并拥有通用与定制服务的技能,可自我进行内容检验与风控,就能解决智能语音交互场景下的应答准确性问题。灵聚经典对话能力平均响应时延300ms,开放域百科及闲聊TP99680ms,可以把应答时延控制在800ms内。但其缺点是数据量没有大模型的多。“所以只有经典技术+大模型进行互补,才能满足客户的多种智能语音交互场景下的需要,当前正在解决大模型响应时间适配语音交互需要的技术问题,很快就可以实现并对外展示。”张胜告诉记者,目前融合了灵聚人工大脑和ChatGPT及百度文心一言的API已经对外服务,后续会融合更多的大模型对外陆续开放,已经对接了灵聚对话式AIAPI的用户,无需做任何改动,即可用到不断上线的新能力。
未来发展
人工智能在广州有更多应用场景发挥优势
回顾创业10年,张胜肯定了其南下广州创业,又来到海珠的选择。“广州是个很开放,包容性又强,而且文化底蕴非常深厚的城市。来到海珠,在人工智能发展领域,我们不仅受到政府的政策支持,还能借助广交会的地理位置优势,把我们的产品推向市场。”张胜告诉记者,他认为在文化底蕴丰富的广州,人工智能将会有更多的应用场景可以发挥优势。例如数字人、游戏、个人智能助理、中医药产业、保姆服务型机器人等。
如果用资本力量或者市场对产品认可程度来衡量一个创业公司的成绩,灵聚科技显然取得了阶段性的成就。
“我们已经攻克了两项关键技术难题。一是精准可控的交互,其中包括内容不出错,我们也已取得NLP内容审核方面的发明专利;二是我们要解决智能语音交互场景下的相关问题,包括智能语音交互场景下时延问题,还有怎么能让大模型可用的问题。”张胜告诉记者,目前灵聚正在训练自己的灵聚灵脑大模型,该大模型并不是为了做通用服务的模型,而是可以敏捷响应某个行业或某个企业所需要的某项专用能力的定制训练需要,预计在下个月有阶段性的成果。“比如我们为南方都市报提供一个新闻大模型,需要南都为我们提供大量的新闻数据,我们用标注后的数据来训练新闻大模型,甚至根据南都不同的新闻板块设计不同的专用大模型,解决南都新闻这一垂直场景的专用问题。相对于大模型的‘大’,我们也可以叫此为小模型。”
在张胜看来,衡量一家公司产品是否为好产品,在于该产品是否达到“可用、好用、易用”的标准。而灵聚智能的目标是不断更新迭代NLP技术,打造“可用、好用、易用”的个人智能助理产品。“我们希望为每个人打造一个属于自己的‘贾维斯’机器人(美国漫威漫画旗下人工智能),或者是电影《Her》里面的情感机器人。”