当前位置:首页|资讯|ChatGPT

没用chatgpt,如何搭建智能聊天系统-对话机器人?技术架构解说

作者:唔讲粗口yeah发布时间:2024-04-02

最近chatgpt很火,在学习chatGPT之前先了解一下对话系统的基础架构。

智能对话系统的需求目标

智能对话系统可以提供回答问题的能力,即在理解自然语言的基础上,解答用户提出的问题。进一步的,可以提供基于任务的对话能力,及判断用户的意图,通过多轮对话收集必要的信息,查询订单(检索)、完成订票(任务),查找音乐(检索)等服务。

智能对话系统的架构概览

上图是业界常见智能对话平台文档中的智能语音交互系统基本架构图,从基本架构图中可以看到有以下重要的组件:

  • 用户端应用。用户直接使用的设备上的应用,如运行于浏览器的H5聊天应用,或者独立的APP。

  • 路由服务。根据场景和用户需要路由到不同的地方,如某专业问答机器人、搜索引擎、目录树、人工服务等。

  • 智能对话。提供问答和对话服务的应用或SAAS平台。通用saas产品可以使用百度UNIT,或阿里云的智能对话服务。一些专业领域的有如阿里的小蜜等,或者如追一科技的产品。

  • 第三方内容服务。

  • 客户应用内容服务。

  • 客户管控台。客户管理控制智能对话服务的界面。企业客户可以在控制台中设置意图,训练、测试和发布自己的对话服务。

以上的组件可以支撑和用户的文本对话能力,如果要和用户进行语音对话,还需要进一步的语音技术。所谓语音,核心就是指人说的话,在人类自然语言交互中,我们通过聆听与阅读 收集数据,通过进一步的语言处理获得语义信息,再依靠文字、声音等方式表达 出来,而智能语音发展的意义则存在于实现机器“听说读写”的过程中。

通常可将智能语音交互定义为:以语音信号识别为基础,搭配自然语言处理和对话管理技术,将语言输入信息提取、分析,最终通 过语音合成或文字等方式输出并完成响应的人机语言交互技术。智能语音交互目前主要应用于人机语言交互、质检、业务处理、身份识别等场景,降低企业运营成本, 提升业务处理效率。技术层面上,智能语音技术包含语音信号识别(ASR)、语音合成(TTS等模块。

  • ASR,Automatic Speech Recognition的简写,将人的语音转换为文本的技术。相当于问答机器人的输入口。

  • TTS,Text To Speech的缩写,将文本转换为人的语音。先进的TTS技术输出的语音音律流畅,使得听者感觉自然。相当于问答机器人的输出口。

示例:外呼机器人(使用较为广泛)

整体架构

外呼语音机器人包括基础服务层、逻辑层、编辑运营层、接入层和WEB接入平台:

一、基础服务层:为语音机器人提供基础的通话和语音能力支持,包括语音通话模块和语音识别/合成模块。语音通话模块一般基于第三方SIP供应商实现SIP信令建立、语音编解码、语音上/下采样等功能,支持机器自动拨打电话,自动判断通话状态。语音识别/合成模块集成可以封装阿里、百度、腾讯、科大讯飞等第三方语音识别/合成接口,用于话术的合成、通话语音及响铃的识别。

二、编辑运营层是:一套集合了数据标注、效果评估、数据分析功能于一体的后台系统。编辑人员通过Web系统完成单句意图、整轮意图、语音识别等的标注工作,并定期进行数据分析和效果评测。

三、逻辑层是:语音机器人的核心部分,包括意图识别模块、对话交互模块和对话管理系统。

1、意图识别模块基于深度学习相关模型、规则匹配等实现单句意图识别、整轮意图识别等功能。

  • 单句意图识别针对用户说的每一句话判断其意图,将其映射到系统定义的待匹配语义标签里,如肯定、否定、继续聆听等;

  • 整轮意图识别用于在一通电话结束后判断用户的整体意向,如成功邀约、中性意图、倾向拒绝、明确拒绝、厌恶打扰等;

  • 真实意图识别用来判断用户回复后机器接下来应该怎么回复。

2、外呼对话交互模块通过对话监听器监听发送队列和接收队列里的事件,完成语音的发送和接收,实现语音机器人与用户的语音沟通。

3、外呼对话管理系统包括主线流程管理、分支流程管理、通话逻辑判断、意图/词槽映射和对话状态维护等功能。

  • 主线流程管理指按照话术中定义的主线流程管理状态和策略来对识别的用户意图进行语音回复。

  • 分支流程管理包括分支话术管理和标准问题管理。

  • 通话逻辑判断包括挂断、等待、超时等操作的判断。

  • 意图/词槽映射指根据业务场景需求提取相应信息。

  • 对话状态维护指维护状态数据结构、对话历史等。

4、接入层包括实时外呼接口、WMB消息总线和结果回传接口。业务方调用实时外呼接口实现电话实时呼出,语音机器人外呼的结果数据通过WMB消息总线传递给业务方,业务方拿到语音机器人传回的数据进行人工跟进(若需要,例如人工审批),并将跟进结果通过结果回传接口返回给语音机器人,实现数据的闭环。

5、WEB接入平台为业务方外呼任务接入提供可视化支持,包括账户管理、话术管理、外呼任务管理以及数据报表等模块。

  • 账户管理支持普通用户、业务管理员、超级管理员等不同角色的权限管理;

  • 话术管理方便业务方进行话术模板的创建、上传话术;

  • 外呼任务管理提包括实时外呼申请和审核、外呼任务队列管理,数据管理,记录的检索。

对话交互

语音机器人的对话流程是由话术驱动的。话术是一个有向无环图,图的顶点称为话术节点,逻辑上可以分为开场白、结束语和业务话术,结构上可以分为主线节点、支线节点、标准问题节点等。图的边称为话术逻辑,一般可以分为正向逻辑和负向逻辑,分别由正向语料和负向语料表示。一个话术示例如下:

业务方完成话术设计后,可以通过离线批量外呼和在线实时外呼两种方式使用外呼服务,其中离线批量外呼是在WEB管理平台上传联系人列表并指定外呼时间而创建离线批量任务发起外呼,在线实时外呼则是通过调用SCF接口传入联系人信息实时发起外呼。

一次完整的外呼过程可以分为通话前、通话中和通话后三个阶段。

通话前主要完成防骚扰校验与SIP调度。防骚扰校验预先判断本次通话是否会对用户造成骚扰,避免因打扰用户带来的用户投诉, 因此在通话前会结合不同外呼业务与不同外呼类型进行防骚扰校验,目前采用方法有:黑名单过滤、外呼频次控制、外呼时间段控制、用户历史通话情绪判断等。SIP调度优先选择与被叫归属地相同的主叫SIP资源,次优选择与被叫归属地距离最近的主叫SIP资源来提高外呼接听率和降低外呼成本。

当SIP连接建立后,系统会发送话术开场白。系统语音经过语音采样和编码,通过RTP协议最终传送到用户端。同时,系统会接收用户语音,用户语音经过语音解码和重采样,通过VAD算法检测语音端点,语音部分通过流式语音识别转换为用户文本。用户文本经过意图识别和槽位识别,由对话管理系统选择合适的回复策略并生成系统回复语音。系统与用户完成多轮语音交互,直到用户或系统挂断通话。

当一通对话结束,系统会首先根据响铃识别通话状态(接听、空号、停机等);根据通话状态和对话内容判定用户意向(有意向、无意向、无法判断等)。最终,通话记录、通话内容及用户意向等会存储到相应的数据库中,同时系统会将调用方需要的字段通过WMB回调给调用方。

对于销售场景,人工销售需要对系统筛选的优质商机进行二次跟进。调用方需要向系统回传人工跟进数据,如人工电话跟进、人工文本跟进以及最终的商机成单数据等,用于系统优化意向判断模型,进一步提升对话效果。

意图识别

语音机器人中的意图识别有两层含义:单句意图和整轮意图。在交互过程中,语音模块会识别用户所说的话,并转写为对应的文本,单句意图表示用户所说的每句话所表达的意图,对话管理器根据单句意图确定对应的回复策略;整轮意图表示在完成通话后,根据通话内容判断用户对系统所说内容的意向,是倾向接受还是倾向拒绝,该标签会反馈给业务方,以便对用户进行划分。

单句意图识别又可以分为三部分。

  • 第一,识别与通话行为相关的意图,包含:肯定、否定、在忙、不理解、继续聆听、提供信息、确认、更换、对比、提问、提供方案、建议、挂断、再见、问候、感谢、客气、抱歉、闲聊,共19个标签,这些标签的含义不随话术、语境的变化而改变,根据这类标签可以确定用户当前的回复大致要表达什么意思,对其中的通用意图(如:问候语、挂断等)可以直接给出回复,对于包含一定信息量的意图(如:肯定、提问等),根据话术中的配置实现简单的话术跳转。

  • 第二,识别标准问题,在实际交互过程中,用户通常会问些话术之外的问题,如:“你是谁啊?”等,经过数据积累会根据不同业务总结出一些具备代表性的标准问题,在配置话术时,需要根据业务场景为这些标准问题定制答案,在收到用户回复时,会先去匹配这些标准问题,若命中某个标准问题,则会返回对应的回复,并执行拉回策略,切换到之前的话题中。

  • 第三,识别与语境相关的话术,前面两种意图都只考虑了用户单轮回复内容,很多情况下同样的回复在不同语境下表达了完全相反的意思,如:“我没找到工作”,对于问题“你找到工作了吗?”是否定回答,而对于问题“你还在找工作吗?”是肯定回答,这种情况下,会根据上文判断当前的回复是肯定还是否定。

整轮意图识别分为对话意向和自定义意图标签。

对话意向包含成功邀约、中性可跟进和明确拒绝,对于成功邀约的用户/商机,后续会有销售做进一步跟进,对于明确拒绝的用户/商机会放弃进一步跟进。

自定义意图标签,业务方除了关注用户对业务内容的关注程度外,可能还需要获取交互过程中,用户都提到了哪些关键点,业务方通过在话术中添加关键节点和对应的跳转逻辑,并在相关跳转逻辑上配置意图标签,在交互过程中一旦触发该逻辑,将会对用户打上该标签,实现获取用户的自定义意图的功能。

意图识别是一个复杂且极具挑战性的问题,需要考虑业务、语义、语气等因素,还要在一定程度上避免语音识别错误带来的影响。在语义理解上,我们使用了TextCNN、DSSM、LSTM、BERT等深度学习模型,在规避语音识别错误上,我们使用了听不清语音分类,无意义语句识别等,当前意图准确率达到85%。

系统服务化

语音机器人后台系统采用微服务架构设计,使用58自研RPC框架SCF实现。整个后台服务的设计如下图所示:

  • 实时外呼接入服务和WMB消息总线负责系统业务接入,实时外呼接入服务接收线上实时外呼请求,最终外呼结果通过WMB消息总线回传给业务方。业务方的人工跟进结果也通过实时外呼接入服务进行回传。

  • 语音机器人后台系统由主体外呼服务、ABTest服务、SIP资源调度服务、语音断句服务、语音识别服务、对话管理服务和三个意图识别服务等多个微服务组成。主体外呼服务贯穿整个通话过程,负责外呼的发起和语音的交互,在外呼发起前调用SIP资源调度服务拿到有效的SIP资源进行外呼,用户接听电话后,接收用户说话语音并调用语音断句服务和语音识别服务得到用户回复文本,再调用对话管理服务得到机器要进行回复的话术进行应答。主体外呼服务接收到用户回复语音后会进行缓存以供意图识别服务进行访问。对话管理服务在判断用户意图时会调用单句意图识别服务或真实意图识别服务得到回复话术,在整轮通话结束后调用整轮意图识别服务判断整轮通话的用户意图。

  • 意图识别服务利用深度学习模型进行意图判断,先使用离线数据在WPAI上训练好模型后进行上线,再调用WPAI在线预测服务进行预测。

总结

本文主要介绍了语音机器人的架构设计,包括总体架构、外呼流程和话术结构等。语音机器人各个模块使用的具体技术,如意图识别、对话管理等,后续会有相应的文章详细介绍。

语音机器人提供通用的语音外呼能力,可以应用于自动电话销售、产品服务推广、信息审核、语音通知等多种业务场景,目前已稳定接入销售、客服、运营等多个业务。后续语音机器人将重点优化语音外呼效果,提供简单快捷的接入平台,提高意图识别准确率,提升语音对话流畅度,给传统的销售、客服等人力密集型业务提效。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1