本文将主要介绍下大模型(LLM)如何融入到智能客服产品中从产品设计到技术实现(本文的智能客服仅包含该部分:智能对话机器人部分),以及英伟达给出的开源解决方案是什么。
2年前我写过一篇保险行业智能客服的调研,因为当时的AI还无法像现在的大模型一样理解大家的意图(文本+图片),所以原本智能对话机器人的实现不仅费时费力,且还没有一个很好的效果,导致“在智能对话机器人的部分,在晚上10:50我还测试了部分淘宝店家,发现一般比较小的店使用的还是人工,而像回力这种相对来说比较大的店铺也是机器人+人工一直在线,可能是目前智能对话机器人相对于人工对效益的影响只有在人力成本比较大的时候才有体现,或者需要较长的适应期,一般小企业等不了。”
但是最近我发现大模型给各领域的咨询和智能客服真的带来了天翻地覆的变化,具体有哪些变化将在后文中详细说明。
由于本人非专业做技术的,因此如果有什么有问题的,或者目前业界已经有了更加好的实现方式希望大家在评论区积极互动!
一、为什么需要用LLM重塑各行各业?
自从大型语言模型(LLM)问世以来,人们常将其对现代社会的影响与几十年前互联网对产业的革命性影响相提并论。本质上,利用LLM的过程可以被看作是各行各业的一场重塑。
然而,这种重塑并非孤立进行,而是紧密依赖于技术发展的成熟度。
技术进步在某个关键时刻可能会引发行业格局的颠覆性变化。举例来说,一些原本在技术(包括先前投入的人力资本积累和实际技术能力积累)上拥有壁垒的企业,可能会因为某项技术革新而使得其之前的优势瞬间减少。如果这些企业不能及时变革,就更容易被竞争对手超越。这也为小型和创业公司提供了赶超的机会。
由于目前TTS技术是一个在ai领域比较成熟的技术,因为我就以TTS技术的变革阶段来说明技术大框架的跃升给市场带来的变化:
首先技术跃升的节点说明:Tacotron 2是由谷歌在2017年12月20日发布的。这个系统是一个基于深度学习的端到端语音合成模型,它可以直接从文本生成类人语音。Tacotron 2结合了Tacotron和WaveNet的研究成果,使用神经网络从文本生成类人的语音,其中输入数据仅使用了语音样本和相关的文本记录。这个系统的发布标志着TTS领域的一次重大进步,它在语音合成的质量和自然度方面取得了显著的效果。
如下图所示,是百度TTS产品的发展流程:
从该发展流程可以看出,2017年学界的变化给工业界实现方案带来了直接的变化,且新的企业雨后春笋般的出来,老牌企业也不断投入且技术路线相对统一,下图所示是各大厂的工业部署pipeline:
21年各大厂商TTS技术工业部署pipleline,当时各个做TTS的产商都用的类似的模型和实现方式,一般实现差异化的话只能通过在各个模块进行微调,且微调的目标主要集中在5个方向上:fast、Low-Resource、Robust、Expressive、Adaptive
最后在来说下为什么说Tacotron的出现是TTS技术跃升的点,首先当时的模型可用了,其次行业实现成本有了很大的降低,以及从现在来看虽然目前TTS行业主流程的模型有了一定的变化,但是比如21年出现的端到端的VITS系列以及扩散模型在tts领域的应用,但是依然还是全量的深度学习模型,因此原本积累的数据基础还可以套用以及原本积累的部署经验和优化经验还是有延续的作用。
二、RAG重塑智能对话机器人
首先为什么选择在现在使用RAG重塑智能对话机器人?
应用领域:
从一个人一生的发展来看智能对话机器人可以被应用在各个阶段:
出生
上学
日常生活
工作
不使用LLM的自动回复系统:现有的自动回复系统存在的问题是关键词匹配的局限性,这种方法虽然简单高效,但缺乏对上下文的理解和语义分析,容易造成匹配错误,比如登录 VS登陆就无法识别。如下是2年前智能对话机器人主要使用的技术:
如果直接使用大模型存在以下主要的问题:
使用RAG技术后:
RAG,即检索增强生成(Retrieval-Augmented Generation),是一种结合了检索和生成技术的人工智能系统。它是大型语言模型的一种,但特别强调检索和生成的结合。RAG的最主要的工作流程包括:
四、如何在实际业务中使用该技术? 1. 产品构思
需求业务背景:
有一家税务咨询公司,有一定的历史因此有很多的数据。最近业务扩张快,因此招聘了一批有一定税务基础的咨询人员,但是在实际的工作中发现这些员工能力参差不齐,且即使有些人能力出众,但是因为税务法规在不同的地区要求不同、国家为了更好的发展,每年会提出各种税务概要要求,如2023年中国的税务改革主要集中在深化税收征管改革和优化税费政策上,还有社会上行业众多,因此导致有些领域招聘的人不熟悉,没有办法给客户的问题提出一个好的建议。
如何解决:
为此期望借助公司历史积累的数据以及收集到的每年税务变革资料和各地税务法律法规给自家的客服系统接入智能问答机器人,方便税务咨询老师可以在不太明确时可以问智能问答机器人。且目前大模型对对话的了解能力确实有所提升因此想要用大模型来进行构建,但是在构建智能回答机器人的同时还需要注意些业务上的逻辑:
理想态测算指标:
毕竟这是个长远的事情因此需要设计各种指标对该产品的效果以及商业化前景等内容进行监督:
1)效率和用户体验相关指标(实际使用中需要关注的指标:包含直接用户税务咨询老师和间接用户客户)
2)准确度和性能相关指标(训练的时候需要关注的指标,后续实际使用的时候可以抽样获取)
3)数据和知识库相关指标(由于这是一个长期的产品,因此需要不断的修改知识库以及规范知识库的书写方式便于训练,因此该指标主要针对数据管理流程中的相关人员)
4)商业收益相关指标(实际使用中,以及决策是否需要长期使用以及将该产品推广大更大的场景需要的决策指标)
5)安全和合规性指标(由于领域要求,因此需要注意数据敏感性问题)
6)技术和维护相关指标(为了后续直接给个人和企业使用需要关注系统稳定性)
以上指标具体需要怎样的目标可以结合实际场景和原本的数据结果进行规划。
目前的这个解决方案有什么收益和成本?
架构图:
实际开发中需要注意的点?
如何搭建整体和RAG相关框架:
总之,选择什么样的实现方式需要综合考虑。
举个例子,初期可以使用Langchain框架或现有平台快速搭建原型,随着项目的深入,再逐步引入自研模型以优化性能。这样的混合方法可以平衡开发速度和模型的定制化需求。
具体使用什么LLM、embedding模型?
需要根据你的成本和想要实现的效果做权衡,目前有很多开源模型(如GPT-3、BERT)或商业模型(如阿里云、腾讯云提供的模型)供我们选择,可以多试几个最后看下前面我们提到的各类目标指标是否符合期待。
按照业务需求设计对应的业务逻辑模块?
回到最初的产品设计,还是需要提醒下你的业务需求是什么,比如由于我们这个系统需要给多方接入因此需要做鉴权,和数据权限控制,以及后续要开放给企业和个人直接使用以及需要计算项目成本和收益,因此存在计费模块等。
3. 研发
第一步:数据管理
数据准备阶段:数据清洗–>数据提取–>文本格式转换–>文本分割–>向量化(embedding)–>数据入库
数据管理为了更好的进行embedding以及让大模型更好的理解我们的知识,对数据的处理就需要注意下,因为有一个好的干净的数据才能保证问答系统的准确率和召回率等指标。
数据整理时需要注意的点:
第二步:模型设计研究和开发
如今LLM应用技术栈中的模型(例如GPT-4)就相当于其中的CPU,开发框架(例如LangChain或Dify)则相当于主板,而内存、向量存储、插件就好比主板上的各种I/O设施。正如组装计算机一样,开发者在构建LLM应用时也需理解、精心挑选和配置每个组件。
第三步:按照测试结果对模型进行调优
虽然rag整体来说是一个比较好的技术,但是前文讲到的基础RAG模型还存在很多问题因此在实际使用中还需要结合实际业务场景和需求进行微调。
该技术可以通过微调来提升各方面的性能指标,以下仅举例几个实际使用中常见的问题,来详细阐述如何微调模型使其符合业务要求:
以上如果都进行调整后原始的rag技术架构会变为如下图所示:
第四步:部署
第五步:根据实际使用结果对模型进行不断调优
可结合理想态指标按照第三步的方法进行优化模型,或者通过添加交互和逻辑判断来完善用户体验。
4. 案例
【NVIDIA大模型结合 RAG 构建客服场景自动问答系统】NVIDIA提供了如下的RAG优化后的模型,其架构如下图所示:
以及在对原始RAG架构进行调整后模型效果有了怎样的提升:
如果你的项目也想要用该模型的话可以前往对应的地址,该地址可以通过文末的参考内容进行逐步查找。
五、在本文之外的思考-LLM vs 互联网:
AI大模型的出现对商业的影响确实可以与几十年前互联网的出现相类比,尽管它们在技术和应用上存在一些差异。以下是一些相似之处和不同之点:
相似之处:
所以最后还是期待下AI、LLM可以给世界带来像科幻电影一样的新意,如果我有幸参与到了这样的产品和技术的变革之中,真的是荣幸之至!
参考内容:
TTS:
1.2020-CCF语音对话与听觉专业组会议(主办单位:中国计算机学会 |B站:BV1ST4y1F7mg)
智能对话机器人:
RAG:
【NVIDIA大模型结合 RAG 构建客服场景自动问答系统】
LLM产品:
《The AI Product Manager’s Handbook》
文章辅助撰写:
智谱清言
本文由 @4T 原创发布于人人都是产品经理。未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议。