“任何足够先进的技术,初看起来都与魔法无异”——这是著名科幻作家克拉克总结的第三定律。
今年以来ChatGPT掀起的智能交互变革,大语言模型的智能涌现能力,在很多人眼里,真的就像魔法一样。
当然,大家心知肚明,技术世界里哪有什么秘诀和魔法,还不是一行行代码、一个个日日夜夜、一次次的bug调优迭代,最终让技术创新像魔法一样出现,惊艳世人。
所以,在如火如荼“大炼模型”的时间节点上,比起技术的玄妙,我们更关心那些“高大上”的技术,究竟是如何被打磨出来的,又会怎样改变我们的生活与工作?
要弄懂这一点,就需要了解技术的真实进展与发展脉络。于是,我们想到了“吴文俊奖”。
如果你关注AI领域的硬核技术,一定对“吴文俊奖”不陌生。
2011年,中国人工智能学会发起设立的“吴文俊人工智能科学技术奖”,是我国智能科学技术领域唯一依托社会力量设立的科学技术奖,也被誉为“中国智能科技最高奖”。
十二年来,吴文俊奖激励着扎扎实实的个人、技术和项目,同时作为一扇窗口也展现着中国AI的发展方向和探索成果。
在“吴文俊奖”科技进步奖的名单中,我们看到了一个与类ChatGPT技术同出一源(NLP)、又独辟蹊径的项目——任务型智能对话交互关键技术及大规模产业应用,由京东的何晓冬博士团队研发。
简单来说,这是一个由语言模型、图像生成、数字人等多种能力构成的技术群落,并实现了从学术界到产业界的落地。
如果我们想了解智能对话的“魔法”,以及正在真实发生的产业变局,这些具体而真实的场景、人、技术和创新,是一个非常好的切面。
登上吴奖奖台的技术,也是你我身边的“魔法”
吴文俊人工智能科技进步奖是颁给底层技术的,而相比复杂艰深的学术名词、函数公式,普通读者更关心的是,这些底层技术究竟是怎样从吴奖奖台,来到你我身边,变成日常生活中的“AI魔法”的?
这一次,京东何晓冬博士团队,告诉了我们答案。
在访谈现场播放了一段枸杞带货的视频,视频中人物的形象、脚本、语音和动作全部都是AI生成的。
这种高真人还原度的AI应用,正是基于获得吴文俊奖的京东云智能交互技术体系打造的。
何晓冬博士透露,京东一直持续技术投入,在AI领域沉淀出的综合性应用平台就是“言犀”。
开放式闲聊,用户对技术的包容度很高,即便系统犯错,用户也可能会觉得有趣。但在言犀面对的任务型对话场景中,用户都会带着解决复杂问题的明确目的。以应用最广的零售场景为例,他们需要智能客服精准解答售前咨询、退换货、配送等各环节的问题,这时候系统犯错,就是“火上浇油”。
所以,“言犀”的语音生成、情绪感知、多轮对话决策推理等核心技术,必须满足真实场景的严苛需求。
(京东云“数字人”)
为此,京东云在技术上进行了大量创新:
1. 知识指导的多模态可控对话生成。就拿数字人直播来说,要还原真人的表现力,做到惟妙惟肖的语气、口音,对技术的先进性要求很高。京东云言犀团队提出了多颗粒度韵律增强的语音合成技术,提高语音的韵律丰富度和可控性。同时,提出了知识融合的预训练语言模型和多模态可控对话文本生成模型,提升生成文本的专业度丰富度。这样,一个AI科学家也能在数字世界里,一秒化身“养生专家”,头头是道地提供相关领域知识。
2. 极简条件下智能行为感知与数字外观重建。说实话,数字人带货的视频很难分辨出是AIGC,其中一个原因就是生成的动作自然、合理,“不像假的,再看看”。这源于言犀团队与清华大学等一起提出的一系列高精度人体外观感知与重建方法,达到国际领先水平,算法效率提升了1个数量级,可以在极简条件下进行人体重构,应用于数字人交互服务场景。
3. 多轮对话决策推理。在实际场景中,数字人主播可以跟真人消费者进行复杂的互动和讲解,那么问题来了,现实中的人会有口语化、不规律停顿等情况,如果AI在用户思考的时候就盲目打断,把对话接过来,很可能让用户不高兴,这就不够智能了。何晓冬博士介绍到,智能对话的本质是决策,AI要能够以毫秒为单位,进行综合性、多模态的判断,然后决定什么时候切进去、什么时候继续等待。针对人/机话语权决策等问题,言犀团队提出了多轮对话决策推理等技术,打造了国际领先的解决方案,此前还曾获得国际竞赛Wikihop、HotpotQA冠军。
登上吴文俊奖领奖台的“技术魔法”,背后是一件件源于扎实应用场景,具体而真实的创新,也在2022年7月通过了中国人工智能学会组织的科技成果鉴定,组委会做出了“该项目技术复杂,研制难度大,创新性强,项目成果整体处于国际先进水平”的评价。
京东魔术师:一群AI人的“侧写”
在访谈现场,我们见到了言犀团队的多位成员,一番对话后,我愿称他们为——京东“魔术师天团”。
为什么这么说?其实,在国际赛事上刷榜的国内团队很多,但能让技术真正创造产业价值与社会效益的团队,真是凤毛麟角。
在吴文俊奖的最终答辩环节,面对院士专家组成的评审团,何晓冬博士分享了一个现实案例:去年北京市有2600万通“96010”电话,是借助言犀的人工智能对话技术打出去的。而这些工作,如果没有用AI,需要1万名社区人员不停地打好几个月。
技术成果的规模化应用,产生了重大的经济和社会效益,也是评委们认可的要点。
这种将技术价值与产业价值“合二为一”的能力,正是源自京东云言犀团队的全员“魔术师”,看似神奇的成果背后,是日复一日的苦练钻研,以及想用技术创新推动产业跃迁那份心意,最终点亮了AI魔法。
“学术”与“产业”是“两层皮”,这个问题一直困扰着全球学术界和工业界的众多研究者。即学术成果和落地应用之间,很难达到一体化,要么学术成果难以落地,要么落地之后效果不好,成了“买家秀”和“卖家秀”的区别。但在京东,好像这个问题并不存在。
我们访问了几位团队成员,从他们口中找到了技术的产业落地“之所以是京东”的答案。
1.严谨态度。技术创新必须经由实践效果的检验。何晓冬博士透露,今年言犀要发布一个千亿级大模型,但内部非常严肃看待这次技术革命,做大模型不是为了好玩,也不是发个产品就可以了,而要在京东核心关键的场景上有比较好的实践效果后,才能让合作伙伴落地使用。
2.深入业务。吴友政博士在自然语言处理、人机对话、语音识别、机器翻译等前沿技术研究和产品研发方面成果斐然,他介绍到,京东云言犀团队做的很多技术攻关,目标就是解决京东复杂的、真实的、大规模场景中的问题,要求算法同学们都要深入业务,而不是在实验室做模型。所以,2018年产业互联网还没有那么火热的时候,言犀就已经在B端智能领域进行了探索,了解每个业务的痛点,和业务同学梳理出真正的问题是什么,用最终的业务指标去衡量技术先进性。
3.拥抱用户。在交流中,几位技术人员都提到了一个“人”——用户。
语音合成领域的张政臣博士说,技术攻坚中最大的困难,就是用户明显感觉到“你这个技术不行啊”,最开心的时候,是听到大家说,“我跟何博士很熟,刚才那段生成对话居然没有听出来”。
陈蒙博士负责人机对话,最典型的落地场景就是智能客服,京东零售有几千个品类,每个店铺卖的东西不一样,智能客服要针对不同品类来回答用户的售前售后问题,陈蒙博士说:“实际应用时,不是每家企业都有GPU卡,还要考虑不增加企业的成本,还能有比较好的初始效果,这就要求我们提高模型的泛化能力。”
语音识别方向的范璐博士,一个核心任务就是理解用户说话的情绪,来理解客户到底在什么阶段有什么需求,从而做出更准确的决策判断,来提供更好的服务。他直言:“做技术的人要理解用户的问题,去找解决问题的锤子,而不是拿着锤子找钉子……当用户反馈说,我们的一些产品真的帮助到了他,感到了关怀和温暖,我感觉加过的班都值了。”
魔术师的帽子里,有抽不尽的彩带,飞翔的白鸽,只为了让观众惊艳、笑出声来。对于用户来说,京东云的技术人员,正是在产业里制造神奇的魔术师,让艰涩的技术和枯燥的代码,转变成产业应用的繁花似锦、用户指尖的灵机一现。
产业AI:一个关乎中国的远大前程
狄更斯在《远大前程》中,展现了时代轰然向前对个人的成长和经历,会产生巨大影响。这与我们当下所处的时代变迁,何其相似?
今年以来,交互方式的变革,让绝大多数人都感受到了人工智能汹涌澎湃的力量。没有人会怀疑,智能技术正在快速重构一切,关乎一个人、一家企业乃至一个国家的远大前程。
何晓冬博士坦言,AI正在带来新的生产力,帮助商业效率进一步提升。
而在这个确定的未来中,一家企业需要具备怎样的基础能力?
何晓冬博士觉得,答案是“产业AI”。
何晓冬博士很清楚,一项新技术要从学术界抵达产业,真正发挥效用,中间存在无数限制和困局。
他说:“人的终极三问——我是谁,从哪来,要到哪去,放在AI这就是要思考,智能是什么,智能的脉络和智能体能为现实世界带来什么。”科学家做研究,解决第一个问题很容易,造出一个“智能机器”,但落地到物理世界的时候,未必能解决每个具体场景和从业者的痛点。何晓冬博士说到:“我最近五年在京东做‘产业AI’,觉得这个路子是值得持续挖掘的,技术能深入到社会和经济领域,真正减轻客服等工作人员的负担,提高生产效率。”
这五年,也是京东云成长的五年,已经探索出了一条产业AI的路线图:
以技术为起点,建立完善可用的技术底座。
一方面,解耦京东技术与服务能力,京东云将数智供应链场景中成长出的AI能力,服务千行百业。此外,始终抢先布局,针对大模型等新技术一直在布局,比如百亿级模型Vega,在全球机器翻译比赛上获得了多个第一名,体现了京东在大模型方面的技术积累和技术实力。
以产业为终点,服务传统实体行业。
何晓冬博士提到,技术落地最大的困难就是,很多科学家觉得有价值的事情,对行业来说没有解决内部痛点。自己前20年做技术,能消除学术和产业的鸿沟,是他加入京东后非常欣慰的事。
比如对消费者来和对用户来说,直接使用智能交互技术,是很难的,而京东凭借自身零售、物流、产销等业务能力,可以将整个业务系统串联起来,同时将京东内部实践锤炼出的AI能力,进行成本、效率、体验的再优化,然后对外赋能。
言犀智能人机交互平台,就是技术规模化赋能实体行业的载体,整合了过往产业实践和技术积累,在每天上千万人次多轮对话交互服务中持续迭代,产业服务能力突出。
比如政务领域,京东云将言犀的新一代人机协同技术全面注入政务热线服务,帮助东莞12345热线,进行了智能化升级。东莞12345热线2022年全年话务受理量从270万通升至581万通,在工单自动转写、精准派单、智能知识库联想等能力的加持下,接通率由40%升至超90%,等候时长由80秒压至30秒,工单平均办理时长由12.6天压至4.3天,满意率升至96.8%。在保定,借助京东云的对话分析技术,保定12345实时预警研判出多起覆盖升学、食品安全、营商环境等方面潜在群体事件……
企业服务领域,直播已经成为各大企业触达潜在消费者、扩展品牌知名度的重要渠道,某头部3C品牌就借助言犀数字人产品,定制了自己的IP形象,实现了非真人时间段的快速开播。目前,数字人主播的每日成交金额最高达到真人主播的2.3倍,每小时成交金额占真人45%,但成本不到真人的十分之一,帮助品牌服务好消费者,同时降本增效。
AI的技术起点与产业终点之间,需要深度应用、不断打磨,京东云有一群将AI学术与产业紧密结合的技术人,愿意深耕每一片产业热土。
不断聆听来自产业和用户的声音,彻底改变那些沉淀已久的顽疴,这是京东云能持续让技术在产业领域中产生价值的重要原因。
今天,AI+产业已经上升为国家战略和社会的共同期待,但想让AI真正为行业带来价值,惠及千家万户,仅仅有宏大的愿景与美好的希冀远远不够,将学术圣殿与产业土壤链接到一起,才有完整的“产业AI”,才能回答人生的“终极三问”。
从京东云言犀团队的奖杯里,我们可以读到产业AI的春华秋实,理解技术走向物理世界的因果。
每一个神奇时刻的背后,其实没有“银弹”,没有奇迹,只有踏踏实实深入AI世界深处的人与故事。