人类有史以来最快完成一亿级别用户的应用就在最近诞生了,那就是ChatGPT,仅仅用了2个月的时间(注:上一个这类杀手级的应用是”抖音”及其国际版”TikTok”)。从学术界到工业界,从媒体报道到朋友聚会时的闲聊,都掀起了一阵热议。比尔盖茨近日甚至公开表示ChatGPT的历史意义重大不亚PC或互联网诞生。面临巨大挑战的Google和百度公司都于近期宣称要全力投入类似的应用开发中(all-in GPT)。
目前对于ChatGPT的讨论有非常多,春节放假期间笔者也一直在测试ChatGPT及其衍生品的各项功能。现在,结合之前从事的人工智能自然语言处理NLP工作,笔者帮助大家梳理一下若干核心内容,方便读者们快速了解该算法应用。
首先,ChatGPT是什么?
从最直观的使用感受来看,ChatGPT能够智能生成文本,比如文章、散文、笑话、诗歌、求职简历,甚至活动方案、论文、代码,你只要向它提出要求,它几乎都能给出一份满意的答卷。
正式地来讲,ChatGPT是由OpenAI公司开发的一种大型语言模型,其具有高度的自然语言处理能力(如:类人对话,文字总结,文本任务完成等)。ChatGPT的目的是提供人类般的自然语言回答,并在接受到输入后,生成相应的文本输出。它是通过预训练大量的文本数据,学习语法和语义,来实现对自然语言问题的回答。ChatGPT可以用于多种应用,如问答系统、对话机器人、文本生成等。它的语言生成能力和准确性得到了广泛的认可,并成为了自然语言处理领域中的重要参考。
其次,ChatGPT怎么来的?
ChatGPT由OpenAI公司开发实现。该企业为非营利性研究机构,旨在帮助人类更好地理解和控制人工智能。OpenAI的目标是开发机器学习技术,以帮助人类更好地理解和控制机器学习系统,从而改善人类生活。OpenAI的研究项目涉及计算机视觉、自然语言处理、强化学习和机器人等领域。
大家需要知道的一个基本事实是:ChatGPT绝非一个平地起高楼式的算法。实际上 Open AI一直在研究未来的AI范式,即未来的人工智能应该做什么?该公司创立之处就是由一群受过严格学术训练的天才团队来从事工程模型开发;即非科学家,也非商业组织,但是又同时具备了这些特质。这一类型的组织非常罕见。
以下是笔者总结的ChatGPT发展的几个重要里程碑(注:粗体部分为关键时间点):
* 2015年,OpenAI由马斯克(Elon Musk)、美国创业孵化器Y Combinator总裁阿尔特曼(Sam Altman)、全球在线支付平台PayPal联合创始人彼得·蒂尔(Peter Thiel)等硅谷科技大亨创立。
* 2016年6月21日,OpenAI宣布了其主要目标,包括制造“通用”机器人和使用自然语言的聊天机器人。2016 - 2017年中,NLP中的大杀器Transformer还没有出现,当时Open AI主要研究的是与Alpha Go(Deep Mind公司)一样的领域:强化学习。
* 2017年,由Google率先提出了transformer的论文。Open AI也开始转型。
* 2018年6月,Open AI提出了第一代的GPT模型(非人为标准,自回归的方式去大量学习互联网上已有的语言文本数据),此时该模型只有1.17个参数,预训练量5GB。
* 2019年2月,Open AI提出了第二个代GPT模型,参数15亿,预训练量40GB。2019年7月22日,微软投资OpenAI 10亿美元,双方将携手合作替Azure云端平台服务开发人工智能技术。
* 2020年6月,Open AI提出了第三代GPT模型GPT3,参数1,750亿(规模比GTP2扩大了上百倍),预训练量45TB。GPT3是划时代的产品,笔者在高校实验室第一次看到GPT3的研究成果和学术论文时所受到的震撼程度甚至超过了现在的ChatGPT!生成式AI(generative AI)的现象跟GPT3是直接相关。微软于2020年9月22日取得独家授权。
* 2021年OpenAI推出了图画生成器Dalle和Dalle 2。
* 2023年OpenAI宣布推出人工智能聊天机器人ChatGPT(实际上是GPT的第四代)。
接着,ChatGPT是怎么实现的?
说明:以下内容摘选自笔者在高校实验室时所做的自然语言处理技术的部分综述,非技术类读者可以选择性阅读。
1.从整体上而言,目前的ChatGPT主要是延续了GPT3技术路线,依然使用了Transformer技术框架,这是一种基于注意力机制(Attention)的模型。Transformer架构允许模型并行地处理序列中的每个位置,并通过注意力机制来学习关于整个序列的依赖关系。这使得Transformer架构非常适合于自然语言处理,因为它可以有效地处理语言中的上下文和语义信息。Transformer技术可以用来替代传统的RNN模型,用于解决语言模型中的序列到序列(Seq2Seq)任务。
2.Transformer模型基于注意力机制,可以有效地捕捉句子中的依赖关系,它是一种基于深度神经网络的学习和推断输入序列和输出序列之间的映射。Transformer模型的结构主要由两部分组成:编码器和解码器。编码器的作用是将输入序列编码为一个固定长度的向量,解码后的向量解码为输出序列。Transformer模型还采用了多头注意力机制,可以同时从多个位置查看输入序列,从而捕捉更复杂的依赖关系。Transformer模型的优点是可以并RNN模型计算更快,而且可以捕捉更复杂的依赖关系,因此在自然语言处理任务中表现更好。
3.ChatGPT通过预训练大量的文本数据来学习语法和语义,并通过一个预测循环来生成文本。在接收到输入后,模型使用注意力机制从预先训练的语言数据中学到的信息来生成相应的文本输出。这种架构的优势在于,它可以根据输入的语言上下文和语义生成高质量的自然语言文本,并且可以很好地适应各种不同的任务。
4.NLP预训练技术是一种使用大型语料库训练深度学习模型的技术,以提高NLP模型的性能。它的目的是提取一些通用的模型参数,以便在任何其他任务上使用。预训练技术已经成为NLP中的一种重要技术,因为它可以减少模型训练所需的数据量,并且可以在不同的任务上复用模型参数。常见的预训练技术包括词嵌入(如Word2Vec)、语言模型(如BERT)和序列标注模型(如CRF)。
然后,ChatGPT的核心“Transformer"是什么?
说明:以下内容摘选自笔者在高校实验室时所做的自然语言处理技术的部分综述,非技术类读者可以选择性阅读。
自然语义处理NLP的Transformer是一种新的架构,旨在解决序列到序列的任务,同时轻松处理长距离依赖关系。在不使用序列对齐的RNN或的情况下计算输入和输出表示,它完全依赖于自注意力。
基本概念图如下:
从技术逻辑上来看,Transformer模型是基于最古老的神经网络形式,即Encoder-Decoder(编码器-解码器)架构的。编码器是左边的灰色矩形,解码器在右边。编码器和解码器分别由两个和三个子层组成。多头自我意识、完全连接的前馈网络和解码器情况下的编码器解码器自我意识(称为多头注意力),具有以下可视化效果)。
·编码器:编码器负责逐步完成输入时间步长,并将整个序列编码成一个固定长度的向量,称为上下文向量。
·解码器:解码器负责在从上下文向量读取时逐步执行输出时间步长。
编码器和解码器堆栈的设置是工作机制如下图所示:
1.输入序列的词嵌入被传递到第一个编码器。
2.这些然后被转换并传播到下一个编码器。
3.编码器堆栈中最后一个编码器的输出被传递到解码器中的所有解码器。
Transformer中最核心的技术内容来自于注意力机制(Attention)。
Transformer Architecture 中的 Attention 及其工作原理:
1.首先是encoder和decoder attention层。对于这种类型的层,查询取自解码器之前的层,键和值取自编码器输出。这使得解码器的每个位置都可以关注输入序列中的每个位置。
2.第二种是encoder中包含的self-attention layer。该层从编码器之前的层的输出接收键、值和查询输入。编码器上的任何位置都可以从编码器前面的层上的任何位置接收注意力值。
3.第三种是decoder self-attention。这类似于编码器自注意力,其中所有查询、键和值都从上一层检索。自感知解码器可以在任何位置使用以服务任何位置直到该位置。未来值用(-Inf) 屏蔽。这称为掩蔽自注意力。
4.解码器的输出最终通过一个全连接层,然后是一个softmax 层,为输出序列的下一个单词生成预测。
与 RNN 的比较:
Transformer 架构通过在完全独立的架构中处理学习的这些方面,消除了 RNN 架构的时间相关方面。因此,transformer具有与最长句子中的单词一样多的线性层,但这些层是相对素数且与时间无关的,就像 RNN 的情况一样。因此,它具有难以置信的并行性并且易于计算。
Transformers 并非在所有应用中都优于传统的 RNN,RNN 在某些情况下仍然胜出,但在那些它们可以与传统 RNN 匹敌或击败的应用中,它们的计算成本更低。
Transformer的优点:
1. 可以理解彼此相距很远的顺序元素之间关系。
2. 文本表达更准确。
3. 对序列中的所有元素给予同等的关注。
4.在更短的时间内处理和训练更多的数据。
5. 几乎可以处理任何类型的顺序数据。
6. 有助于异常检测。
上述技术部分内容总结一下,Transformer 模型是一种新型的编码器-解码器模型,它使用自我意识来理解语音序列。这允许并行处理,并且比具有相同性能的任何其他模型都快得多。通过这样做,他们为现代语言模型(例如,BERT和GPT)以及最近的生成模型铺平了道路。
最后,目前ChatGPT能什么?不能做什么?
注:以下内容均来自于笔者的单独测试结果,时间截止于2023年2月5日。不可视作任何官方或者机构的正式评估反馈。
目前可以高质量完整的文本应答(生成)任务举例:
1.如何说服让家人做家务?
2.如何告知客户功能无法实现?
3.用鲁迅的口吻对某主题写一篇短文。
4.将一篇文章汇总成4个核心词语。
5.在某Excel表格中,如果实现在每行的末尾形成一个汇总。
6.生成一个Kmeans的python代码并做出示意图图。
目前无法高质量实现的文本应答(生成)功能:
1.很难处理需要逻辑推理任务。回答很大程度上取决于描述这些任务的格式(如:顺序,主谓宾的构成特点,是否有倒桩等)。
2.在长文本提问时无法准确过滤无关的信息。
3.进行上下文的聊天式对话依然有困难。
4.有时处理数字或者数学运算有问题。
5.对于主观类型的问题回答取决于互联网上公开的内容,因此可能会带有各种政治/道德/公序良俗等先验的偏向性问题,在私有话题中需要进行后验性的检验。
最后的最后,对我们而言ChatGPT怎么用?
ChatGPT既然是一种基于自然语言处理和机器学习技术的新型聊天机器人系统,那么它原则上可以模拟任何有意义或者逻辑自洽的对话。它可以自动识别用户输入的意图,并基于预先训练的模型生成对话响应,以满足用户的需求。它可以帮助企业提高客户服务水平,提升营销效果,为用户提供简单快捷的查询服务。所以,对于客户中心产业来说,智能应答机器人,智能知识库,智能语音路由,智能质量管理等,这些业务领域都在可以想象的空间里!
作者:石云
现任CC-CMM标准组织执行理事,首席六西格玛黑带大师。国内客户管理领域知名刊物编委,中国呼叫中心产业能力建设管理规范专家委员会委员,ACE资格认证体系总负责人,客户中心国际标准创世人之一,客户中心年度报告总撰稿人。在学术领域,兼任中国大数据产业研究中心首席顾问、上海财经大学金融科技研究院智能金融工作组首席科学家、复旦大学客座讲师。是国内服务业领域统计学与运筹学应用方面的最知名专家之一。在呼叫中心领域发表的著作包括:《客户中心能力成熟度模型》,《CC-CMM客户中心能力成熟度标准与专业术语表》,《中国客户中心产业发展报告》,《高绩效呼叫中心运营》,《基于客户中心的绩效管理与数据分析》,《呼叫中心设计与规划》,《呼叫中心流程管理》等。