ChatGPT +RPA=？——对话ALBERT蓝振忠&实在智能孙林君

作者：数据猿发布时间：2023-03-01

如果要问目前科技界最火的话题是什么，很多人的答案将是ChatGPT。而且，ChatGPT大有“破圈”之势，不仅业界人士在关注，各行各业的普通人也在大量讨论。

那么，ChatGPT到底有什么“魅力”，它只是一阵科技旋风，还是有长久的价值？该如何将ChatGPT看似高大上的技术落地到实际的应用场景中？ChatGPT该如何走进B端的企业服务领域，真正成为生产力？带着这些问题，数据猿对实在智能创始人&CEO孙林君、ALBERT模型第一作者蓝振忠博士进行了联合专访，探讨ChatGPT如何应用落地，尤其是ChatGPT与RPA结合的可能性。

ChatGPT是一阵风么？

首先，我们来回答第一根问题——ChatGPT到底是一阵很快过去的科技旋风，还是会产生实际的应用价值。要回答这个问题，孙林君提出了一个判断的标准——ChatGPT的表现是否能够超过大部分普通人的平均水平。

其实，这条判断标准适用于整个AI领域，即一项AI技术是否能够实现应用落地，关键的判断标准，是其表现是否超越了人类的平均标准，我们暂且将其命名为“人择定理”。这条定理已经在图像识别和语音识别领域得到验证，以图像识别中的人脸识别为例，现在人脸识别已经实现了大规模应用，人脸识别解锁已经成为智能手机的标配，越来越多的城市摄像头也具备人脸识别功能。人脸识别之所以能够实现大规模商用，有一个关键前提，那就是AI在人脸识别准确率上的表现已经超过了人类的平均水平。在大部分场景里，AI系统能够比人类识别的更准确、更快速。

同样的道理，ChatGPT要实现大规模商用，也必须要满足一个条件——在对话方面，能够超越大部分人类的平均水平。

ChatGPT能够满足这个条件么？以下是它自己的回答，ChatGPT认为自己能够处理常见的对话问题，甚至在推理和归纳方面超越了普通人。看来，它对自己的能力还是比较自信的。

当然，ChatGPT自己也承认了，其并不具备真正意义上的理解和思考的能力，在创造性方面还比不上人类。但这并不能阻碍ChatGPT的大规模商用，事实上，不具备人类的理解与思考能力，是目前大部分AI的通病。即使是现在已经大规模商用的图像识别技术，在图像理解方面依然不如人类。人类可以理解一幅图像的背景、语境甚至加入情感因素，而这些是AI做不到的。此外，人类可以很容易地识别模糊、扭曲或变形的图像，但AI系统却很难做到这一点。

同样的，虽然现在ChatGPT依然还存在各种问题，但它能够在大部分对话场景中表现出超越普通人的平均水准，就已经跨过了商用门槛了。

除了ChatGPT的实际应用表现以外，其底层技术的突破也是决定其未来发展前景的重要基础。需要指出的是，对话式AI并不是什么新鲜事，而是AI领域的老熟人了。但在很长一段时间内，对话式AI的表现都差强人意，为什么此次ChatGPT能够一鸣惊人呢？

每一轮AI的商用突破，都建立在底层技术进步基础上。上一轮图像识别、语音识别的进步，根本在于深度学习技术的突破，而这一轮以ChatGPT为代表的AI浪潮，底层是大规模预训练模型的技术突破。

大规模预训练模型，首先表现在模型规模的“大”，模型的参数规模动辄上亿，GPT参数规模上千亿，这是以前的AI模型所无法企及的。除了模型规模外，超大规模预训练模型还在技术上有多项突破，比如：通过自监督学习，模型可以利用海量的未标记数据进行训练，从而提高模型的泛化能力。数据是影响AI模型表现的重要因素，数据量越大、质量越高，训练出来的AI模型表现越好。但高质量的数据是有限的，尤其是以往的训练数据集往往需要人工来进行数据标注，这会耗费大量的人力物力，也成为快速扩大训练数据集的重要瓶颈。借助自监督学习，可以用未标记的数据来训练模型，这极大扩展了训练数据集的规模，解除了数据标注的“枷锁”；

其次，建立在大模型基础上的ChatGPT具备跨语言学习的能力。ChatGPT作为美国公司开发的AI应用，获得了大量中国用户的青睐，关键的原因就是ChatGPT在中文环境中依然有良好的表现。其中原因，即ChatGPT具备跨语言学习能力，可以利用多种语言的语料库进行训练，从而提高模型的跨语言泛化能力。

正如蓝振忠博士所说，ChatGPT底层的大规模预训练模型技术还处在快速发展进程中，其未来商用前景是值得期待的。

在应用场景探索方面，ChatGPT+RPA可能是一个很有潜力的方向。在孙林君看来，ChatGPT与RPA是相互需要、相互成就的关系，具体来看：

ChatGPT需要RPA，探索B端应用场景

决定AI发展前景的关键要素有两个，一个是技术的成熟度，另一个是应用场景落地。现在AI普遍存在的问题就是“拿着锤子找钉子”，缺少落地场景。

ChatGPT要实现商业化，应用场景也是关键要素。目前ChatGPT的应用场景主要是两个：一个是直接面向C端用户，提供智能对话服务；另一个是嵌入微软的搜索引擎，优化其搜索服务。这两个场景都偏C端，目前在B端企业服务领域ChatGPT还缺少典型的应用场景。

ChatGPT要落地B端，关键的一步是要接入企业的业务流程，这就进入了RPA熟悉的地盘了。ChatGPT+RPA，也许是ChatGPT攻入B端企业服务领域的一个关键入口。同时，借助ChatGPT的能力，RPA能够提供的流程自动化服务将更为强大。

接下来，我们以智能客服为例，来畅想一下ChatGPT+RPA的应用落地方式。

大体来看，根据智能客服的智能化程度，可以将其分为三个阶段：

纯智能客服，系统只能根据客户提供的一些关键词返回一些简单、标准化的回复，无法涉及复杂的业务流程，不能帮助客户办理业务，解决的问题很有限；

智能客服+RPA，通过RPA将智能客服接入到企业的业务系统，不再局限于简单的回复客户问题，还能帮助客户调取对应的业务流程，帮助客户办理部分业务，让智能客服系统的价值提升了一个量级。但是，智能客服系统对人类语言的理解能力有限，还是通过抓取人类语言中的关键词的方式，来调取对应的业务系统。这要求客户在跟系统交互时，要使用规范、简单的语言，智能客服系统才能理解。而对于一个复杂的业务需求，往往需要一大段语言才能描述清楚，这种情况智能客服系统往往无能为力，只能让人工客服介入。

智能客服+RPA+ChatGPT，借助ChatGPT强大的自然语言理解能力，可以实现多方面的提升。

以下，是我们用ChatGPT模拟的一个电信套餐办理的智能客服场景。

从这个场景中，可以发现，借助ChatGPT的能力，智能客服系统将在以下三个方面获得显著提升：

复杂需求的理解，智能客服系统不再只能识别一些关键词，而是可以从一大段话中理解客户的真实需求。客户不再关心自己要怎样说才能让系统“听得懂”，而可以像面对人工客服一样，按照自己的逻辑把需求讲述出来；

多轮对话，以往的对话式AI之所以被广为诟病，一个重要原因就是缺乏多轮对话能力，不能联系上下文来理解人类语境。在智能客服这个场景中，复杂的业务需求，往往一次对话是不能解决的，需要多次对话才行。ChatGPT部分解决了这个问题，客户可以通过多轮对话的方式，一步步解决一个复杂的问题，或者办理一个复杂的业务；

结构化回复内容的生成，以往的智能客服系统往往只能给出一个简单的回复，或者返回简单的业务链接。借助ChatGPT的内容生成能力，智能客服系统可以基于客户需求返回一个结构化的解决方案，这个方案可以针对性的解决客户复杂的业务需求。

在上述场景中，如果要介入真实的业务流程，ChatGPT+RPA就是最好的方式，ChatGPT在智能客服终端与用户进行自然交互，RPA在后端调用需要的业务流程，进行流程自动化办理，并将结果交给ChatGPT，让其以便于理解的解决方案方式呈现给用户。

对ChatGPT而言，接入RPA之后，相当于接入了“四肢”，让其不仅能够“说给用户听”，还能帮用户办成事情，拿到结果。

RPA需要ChatGPT，降低使用门槛，提升产品能力

以上主要讲了RPA对于ChatGPT的价值，接下来我们看看ChatGPT对于RPA的价值。总体来看，ChatGPT对于RPA的作用主要体现在两个方面：降低使用门槛，提升产品能力。如下图所示，在ChatGPT+RPA系统中，从用户发布需求到获得答案一共需要经历7步，ChatGPT中在前两步主要体现的是降低使用门槛的价值，在最后两步主要体现的是提升RPA产品能力的价值。

ChatGPT+RPA融合方案示意图数据猿制图

1、ChatGPT降低RPA的使用门槛

一项新技术要发挥更大价值，实现普惠，有两个关键前提，一是降低成本，二是把使用门槛降低到大多数普通人可以便捷操作的程度。

RPA的发展史，某种程度上就是使用门槛降低史。从“拖拉拽”即所得的专家模式；到所“点选用”即所得的小白模式，降低用户使用门槛是重要的诉求。假设基于ChatGPT实现所“说”即所得模式，则RPA的使用门槛将进一步降低，这有助于RPA的进一步普及。

要实现人类用自然语言与RPA系统的顺畅交互，核心是解决人类语言与机器语言不匹配的问题。目前，用户要使用RPA系统，得学习相关的操作规则，用系统能够理解的方式来发布指令，这无形当中在用户和RPA系统之间竖起来一堵墙。

事实上，目前的大部分计算机系统只能接受规范化指令，根据指令来运行程序。如果人类说的话复杂一点，或者与其系统的指令集不符，系统就无法作出正确的反应，这也是目前大部分系统看起来很“傻”的重要原因。试想一下，如果你跟一个人交流，只能跟对方说特定的单词或短语，对方回复你的也是只言片语，那整个交流过程必然会是低效的。并且，规范指令系统的学习成本高，并不是大多数普通人自然的交流方式。要实现智能系统的普惠化，就必须要降低人机的沟通成本。

如何来解决这一问题？核心思路是让计算机系统来适应人，而不是反过来。

20世纪60年代，人机交互的方式，还是人类通过命令行界面输入一段指令，这种交互方式将计算机用户限定在程序员群体。之后出现了视窗操作系统和鼠标，让人机交互方式发生了巨大变革，才使得计算机飞入寻常百姓家。可以说，视窗操作系统架起了人类与计算机之间的一座桥梁。

某种程度上，ChatGPT可能成为人类与计算机系统之间的另一座桥梁：以ChatGPT来理解人类的自然语言，“解构”成计算机系统可以理解的规范化指令；另一方面，计算机系统返回的结果，可以借助ChatGPT的内容生成功能，形成方便人类理解的内容。

也就是说，ChatGPT充当了人类与计算机系统之间的“翻译官”，将人类的自然语言，翻译成计算机系统能够理解的各种指令，同时将计算机系统的执行结果，翻译成方便人类理解的自然语言。

在这方面，国外有一个典型的应用案例：一个开发人员，将ChatGPT与苹果的Siri及其智能家居系统HomeKit相结合，让用户可以通过“聊天”的方式来控制智能家居，而不是像以往那样只能机械的对智能家居系统说“开灯”、“关灯”、“打开空调”等命令。以实际效果来看，整个过程非常自然流畅，比以往的智能家居体验要好很多。

ChatGPT+RPA，也可以借鉴上述思路。借助ChatGPT，让人类可以用自然语言来向RPA系统发布指令，RPA系统根据需求来执行对应的业务流程，并把结果反馈给人类。

以下是用ChatGPT模拟的用RPA执行需求的例子：

从上面结果可以发现，ChatGPT可以理解用户的需求，并将需求进行“解构”，最终返回用户想要的结果。用户并不需要知道人力资源系统该怎么操作，也不需要知道RPA系统该怎么操作，只需要告诉ChatGPT要做什么，之后的一切就让ChatGPT与RPA来配合完成。这种方式，无疑极大的降低了用户的学习和使用门槛。用户面对的不再是一个个冰冷、愚蠢的软件系统，而像是在面对一个真实的人力资源同事，用户只需要告诉他需求，他就能完成接下来的业务流程操作。

当然，以上只是一个模拟，当真正接入RPA系统之后，ChatGPT返回给用户的将不再是一段描述性文字，而是用户上个月的工作时长分析报告。

ChatGPT提升RPA的产品能力

需要指出的是，ChatGPT的能力不仅仅在于理解人类的语言，还在于可以生成一个相对复杂、具有内部逻辑结构的结果反馈给用户。因此，借助ChatGPT，不仅可以大幅度降低RPA的使用门槛，还能提升RPA产品本身的能力。

以数字员工为例，目前的数字员工大多只能实现比较简单的业务流程，而对复杂业务往往力不从心。

如果将ChatGPT与RPA融合，则可以通过对业务流程进行“加工”，形成完善的解决方案，并以用户易于理解和执行的方式，返回结果。面对这样一个数字员工，他不再是简单机械的执行用户的单一指令，而是可以给出一个完善的解决方案，并且借助RPA系统来调用企业的各个业务系统，来执行这个方案，并给出方案执行的结果。

以下是一个模拟的场景，模拟用ChatGPT+RPA系统，来帮助销售人员分析其销售情况和用户画像，给出优化建议，并形成年终总结报告。此外，还依据业绩数据来核对薪酬情况。

上述例子只是一个模拟场景，可以想象一下，如果将企业的数字员工接入ChatGPT+RPA，那么这个数字员工该多么的强大。可以说，ChatGPT+RPA可以让数字员工不再徒有其表，而是赋予其一个强大的“灵魂”。