当前位置:首页|资讯|ChatGPT

二月二理个啥发型,ChatGPT是这么回答的

作者:上海科技馆发布时间:2023-02-21

最近,关于聊天机器人ChatGPT(Chat Generative Pre-Training Transformer)的相关讨论席卷了各个社交平台。

今天正好是二月二,对于为什么要理发这个问题,ChatGPT是这样回答的:

上面这个回答挺正常的,但追问“理什么发型”的时候,它的回答没有太多惊喜。

但ChatGPT究竟是“何方神圣”,为什么能引爆话题?今天我们就来扒一扒。

ChatGPT和它的“三兄弟”

ChatGPT的中文全称为“预训练生成聊天模型”,是一种自然语言处理模型。在ChatGPT引发轰动之前, GPT1(2018年推出) 、GPT2(2019)、 GPT3(2020)模型早已相继问世,它们都是由OpenAI团队研发的。

其中,GPT1首先要在大量的数据上进行预训练(pre—training),之后在放到更加细化模型上进行微调。

所谓微调,是指在大的数据集上训练出一个较为成熟的模型之后,为了适应更精细的任务,从而对模型参数进行调整。这一过程可以比喻为一个处在基础教育阶段的学生,得先掌握拼音、认字、算数等基础知识后,才能去学习更加细化的专业知识。

GPT1在文本蕴含、文档归类、问答、语言相似度等下游任务中表现优异。

所谓文本蕴含,即一句话中隐含着另一句话的含义。例如,“努力的人终能获得成功”,这句话中蕴含着“成功是一件具有积极意义的事情,人们通常会期待它的发生”。

文本分类,顾名思义,就是将文本分成不同的类别。语言相似度,指两句话中语义是否接近。

GPT1拥有参数1.17亿个。GPT2在GPT1的基础上精进了模型,参数量增加至15亿,预训练数据集增加至40GB。增量巨大的参数和预训练使得整个模型的通用性更好,进而省略了模型微调的过程。

如果说GPT1相当于一个在微调之后能够成为不同领域的专家,GPT2就是不用微调,直接能够在各个领域大显身手的“全能高手”。

GPT3的结构与GPT2相差不大,区别主要在于GPT3的参数增加至1750亿,拥有更加海量的预训练数据——约45TB。这些预训练数据包括书籍、杂志甚至专业论文等等。

在GPT3之后,又出现了GPT3.5,如今大火的ChatGPT正是基于GPT3.5架构开发的。

观察GPT家族的发展历程,参数量和训练集肉眼可见地不断增加。

这和人类学习的过程何其相似。人类想要做出一些创造,首先要收集足够多的感性材料。想要成为小说家,首先要读别人的小说,了解小说的写作模式。读得越多,认识就越深刻。

不仅是聊天机器人,前阵子大热的AI绘画软件,也是通过学习大量语料和图像资料,从而完成生成绘画的任务。

AI绘画的任务叫text-to-image(文字到图片)。它首先要学习文字与图像之间的关系。比如,当用户输入“狗”的概念,要想让AI绘画画出“狗”的图像,首先就得让它知道“狗”这一词语与“狗”的形象之间的联系,其次,还必须理解“狗”的概念,否则可能把狗画成猫或者老鼠。

图源:Kaggle Dogs vs. Cats Redux: Kernels Edition | Kaggle

因此,大量学习、反复纠错成了训练AI必不可少的过程。这一点和人类学习也极其相似。对于儿童来说,学习写“猫”“狗”与认识、区分图像中的猫、狗都是必要的过程。

ChatGPT们背后的技术模型

无论是早期的GPT,还是当下大热的ChatGPT,它们都基于一种关键技术:Transformer。2017年,谷歌提出了Transformer模型,中文名称为“变形者”。

Transformer整体结构,由编码(Encoder)和解码(Decoder)两部分构成,

图源:知乎@初识CV

Transformer有什么用?它的工作流程可以简单理解成,当我们在做文本翻译任务时,输入进去一个中文,经过这个Transformer模型后,输出来翻译过后的英文。

图源:知乎@Robin.Q7

Transformer模型里有一个重要的模式:注意力机制(Attention),一般由Query(查询)、Key(关键字)、Value(值)等部分组成。三个部分各自对着输入部分提取信息,经过层层累计,最终关注到输入中关键的部分,从而完成任务。

QKV计算图

图源:《Attention Is All You Need》

Transformer模型出现的意义深远,特别是它的注意力机制,后续出现的自然语言处理模型多是在它的基础上改造的。Tranformer模型被广泛应用于自然语言处理、计算机视觉等领域。

ChatGPT赢在了哪儿?

当下,语音机器人如siri、小爱同学等已经深入我们的生活。ChatGPT的出现,让我们看到了聊天机器人的更大可能。

小爱同学、siri可以执行如播放歌曲之类的指令,能够应对一些简单的问答,但是,随着对话次数增多,用户很快就会发觉,自己是在和机器对话,它经常会给出一些令人哭笑不得的回答,而无法给出更近似于人的回答。

ChatGPT可以给出更加细腻、人性化的回答,与它交谈,会更接近于和人对话。除此之外,ChatGPT能够生成一些专业领域的问题解答、回应聊天甚至自动生成论文,理解语义的能力更强。

为什么ChatGPT能有这样的优势?

首先,当然是开头提到的,ChatGPT拥有规模更大的训练数据和参数,学习资料丰富。其次,ChatGPT的Transformer模型是可以记录时间序列的,它能记录用户在上一刻说过的话,从而使得对话有连续性,而不是机械地回答问题。

但它有时候也会一本正经地瞎说八道。

图源:中国普法微信公众号

之所以会出现这种情况,一方面是因为它学习的准确性尚有不足,对语义的理解可能有偏差,以至于“差之毫厘,谬之千里”。另一方面,它的训练材料规模庞大,无法绝对地保证学习到的知识本身的正确性。

总结下来,ChatGPT只是一个提供便利的工具,而我们能做的,就是在合适的范围内,合理地运用它,从而辅助我们更高效地完成工作。

参考文献

[1]  Ashish Vaswani, Noam Shazeer, Niki Parmar et al.Attention Is All You Need. Computation and Language (cs.CL); Machine Learning (cs.LG).

[2] Alec Radford, Karthik Narasimhan, Tim Salimans et al. Improving Language Understanding by Generative Pre-Training.

[3] Alec Radford , Jeffrey Wu,Rewon Child et al.Language Models are Unsupervised Multitask Learners.2019. OpenAI blog, 1(8), p.9.

[4] Tom B. Brown,Benjamin Mann,Nick Ryder et al. Language Models are Few-Shot Learners.2020.

作者:李霜氤,科普科幻创作者、计算机科研工作者

编辑:一人白

鸣谢:上海交通大学计算机科学与工程系副教授 吴梦玥 为本文提供科学指导


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1