当前位置:首页|资讯|ChatGPT|大语言模型

ChatGPT是GPT吗?别再傻傻分不清

作者:浩总谈天说地发布时间:2023-05-21

原标题:ChatGPT是GPT吗?别再傻傻分不清

大家好,我是ChatGPT,目前的我可以说是无人不晓,但是我总是被误认为成是GPT,实在惭愧,哈哈哈哈。

话不多说,我今天就来告诉大家我和GPT究竟是什么?

一、ChatGPT是什么?

想必很多小伙伴都用过ChatGPT了,它不仅能够帮忙写论文、翻译文章、写代码,还根据不同的题目思考回答,并且具有自己的逻辑性。

除了有时候回答的答案是错的外,其他方面都看似完美。

那么创造出这个超强大ChatGPT的公司正是美国的人工智慧研究实验室——OpenAI

OpenAI

这个组织由萨姆·阿尔特曼、里德·霍夫曼、Jessica Livingston、伊隆·马斯克、伊尔亚·苏茨克维、沃伊切赫·扎伦巴、彼得·泰尔等人在旧金山成立,他们共同认捐了$10亿美元。

当时这个组织的目标是和其他的研究者「自由合作」,并且同时公开所有的专利和研究成果,所以取名"Open"AI

不过马斯克2018年离开这个组织后,OpenAI就设立了子公司,以营利为目的。

马斯克在推特上表示,OpenAI的做法与过去的目标大相迳庭,他觉得十分失望

马斯克在推特上表示,OpenAI的做法与过去的目标大相迳庭,他觉得十分失望

在2019年微软向 OpenAI LP 提供了$10亿美元的投资,并在2023年1月向其提供了第二笔多年投资,据报导为$100亿美元。

也许正因为有微软的大力赞助,ChatGPT才能取得今天的成就。

同时,其旗下还有DALL-E(AI绘图)、Whisper(开源语音识别模型)等优秀的产品。

DALL-E

二、ChatGPT和GPT区别

GPT跟ChatGPT是两件事

ChatGPT是基于GPT-4(本文以GPT-4为例)的变种,专门用于生成对话和交互式对话。它通过学习大量的对话数据和用户输入来预测下一个合适的回复,并尽可能提供有意义和连贯的回答。ChatGPT旨在模拟人类对话,具有更加交互式和对话式的特性。

通俗点来讲GPT-4是一个大型语言模型LLM(Large language model),那么ChatGPT则是基于GPT-4,对其进行再一次的开发后的产物。

所以ChatGPT是GPT-4加上人类互动行为之后,所设计的一种AI聊天机器人程序。

其实目前使用GPT技术的产品有很多,不仅仅只有ChatGPT,下面图片便展示了基于GPT-4的demo。

GPT-4 demo

所以说,不仅仅有ChatGPT,开发人员还可以根据GPT可以开发出来不同类型的AI系统,来满足各种场景的需求。

那么这个GPT又是什么呢?

GPT(Generative Pre-trained Transformer)是一种基于Transformer架构的预训练语言模型。它通过大规模的无监督学习来预训练,使其具备对各种自然语言任务的通用理解能力。GPT学习了大量的互联网文本数据,能够自动生成连贯的文本输出。

简单点来讲,GPT是一种大型语言模型,它是自然语言处理技术其中一种。

大型语言模型就像是一个非常聪明的语言专家,它们在训练时读了大量的文章、书籍和网页等文本,从中学习了很多词语的意义、词语之间的关系以及语法规则。所以它们能够理解人们说的话,并根据上下文生成合理的回答。

自然语言便是我们生活中所应用的语言,比如中文、英文、法文等。

读到这里的朋友可能就比较好奇了,人类能理解问题是因为人类能够思考,那么这种语言模型是如何做到思考的呢?

那么接下来便介绍GPT的运作方式。

三、GPT的运作方式

GPT的运作方式是基于Transformer架构的。Transformer是一种注意力机制(attention mechanism)的神经网络模型,用于处理序列到序列(sequence-to-sequence)的任务。它由多个编码器(encoder)和解码器(decoder)堆叠而成。

在GPT中,编码器负责对输入文本进行编码,解码器则根据编码器的输出生成文本序列。编码器和解码器由多个相同的自注意力层(self-attention layer)和前馈神经网络层(feed-forward neural network layer)组成。自注意力层用于捕捉输入序列内部的关联关系,前馈神经网络层用于对注意力层的输出进行处理和映射。

GPT使用自回归训练方式,即通过将输入序列的一部分作为上下文来预测下一个词或标记。模型根据已经生成的部分序列预测下一个词,然后将预测的词添加到序列中,并继续预测下一个词,以此类推,直到生成完整的序列。这种方式可以使模型学习到文本序列中的潜在模式和语言规律。

看到这里的时候,想必一些朋友大概已经懵圈了。

懵圈

通俗点来讲,GPT的主要目标是对语言进行分析和生成,它可以理解和解析语句,并根据事先训练好的模型自动生成下一个字、下一句话,甚至回答整篇文章。

这点与手机输入法中的自动选字功能类似,GPT也是一种语言模型。

手机输入法自动选字

当你输入一个“你”字时,手机输入法已经为你匹配了下面的“咋”、“说”、“们”、“的”、“家”、“好”等字。

但是,GPT不仅仅是提供下一个字的选项,它会综合分析前面的整句话,根据训练好的模型输出完整的回答。GPT的核心概念是根据前文判断下一个字的生成。

不同于手机输入法只根据最后一个字提供选项,GPT会全面分析前面的整句话,回答完整的问题或生成连贯的文章。

首先,我们将一个起始文本输入给模型,比如说:"今天天气很"。模型接收到这个输入后,会利用自注意力机制来理解输入文本的上下文信息。自注意力机制会考虑输入序列中不同位置之间的关系,并为每个位置分配一个权重,表示其与其他位置的相关性。

模型根据这些权重和输入文本的编码,预测下一个词或标记。在这个例子中,模型可能预测下一个词是"晴朗"。然后,我们将预测的词添加到输入序列中,得到更新后的序列:"今天天气很晴朗"。

接下来,我们再次将更新后的序列输入给模型。模型会再次运用自注意力机制,但这次它不仅考虑到输入文本的上下文,还考虑到包含了预测词"晴朗"的上下文。基于这个扩展的上下文信息,模型会进一步预测下一个词。

我们可以继续这个过程,每次都将预测的词添加到序列中,并不断生成下一个词,直到达到我们设定的长度或生成一个特定的结束标记。

这样,GPT模型通过在每个时间步预测下一个词的方式,逐步生成出一个完整的句子。它通过学习输入文本的统计规律和语义表示,能够生成连贯、有意义的文本输出。

举一个简单的例子:

举例

GPT根据资料内容去学习,根据“今天”、“天气”、“很”这三组关键字,来进行一个回答。

我们假设GPT会回复“美丽”、“晴朗”、“多变”、“炎热”这四种答案,并且每种概率都是25%。

那么当你再GPT,“今天天气很”的时候,GPT会在这四种答案里面随机的选择一个,所以这就是每次GPT回答都会不一样的原因。

GPT的训练过程分为预训练和微调两个步骤。预训练阶段,GPT会通过大量的文本资料进行训练,不断调整模型参数,提高预测下一个字的准确度。

预训练后,GPT可以根据之前学到的知识,根据输入的前文生成合理的下一个字。

需要注意的是,GPT模型的生成是基于概率的,每个词的预测都有一定的概率分布。模型会根据先前的上下文和概率分布选择最合适的下一个词。这使得模型在生成文本时可以具有一定的多样性和灵活性。

四、GPT是如何训练出来的、微调

当GPT完成对工程师提供的所有资料的分析后,为了使其能够完成翻译、写小说、绘画、编写程序等多种功能,需要进行微调。

微调就像是GPT在正式考试之前先阅读大量题目和范例题。在微调阶段,工程师会提供带有特定"标签"的文本,让GPT学习。例如,当我们说"请帮我翻成中文"时,通过标记让GPT理解"Apple"是苹果的英文,"苹果"是中文,从而正确理解翻译成中文的意思。之后,只要我们再次说"请帮我翻成中文",它就能正确回答问题。

在原始架构中,微调需要大量的人工工作,并且每次遇到新任务都需要耗费人力进行训练,非常耗时费力。然而,当GPT从GPT-1升级到GPT-2时,OpenAI尝试减少甚至去除了微调的步骤。

他们增加了GPT-2的文本训练量,并增加了参数数量,将GPT-1的1.17亿参数增加到GPT-2的15亿参数。GPT-2变得更加强大,不仅学习能力更强,甚至在没有微调的情况下,也能理解人类提出的问题,这让人们感到震惊。

OpenAI团队基于相同的原则,再次将GPT-2的参数增加了135倍,创建了拥有1750亿参数的GPT-3,成为目前最强大的大型语言模型。

在没有人工微调的情况下,它在一次尝试和零次尝试的表现中表现出色。一次尝试表示带有少量范例题,而零次尝试表示完全没有范例题,只有问题。可以明显看到,随着模型参数量的增加,即使没有微调,正确度也会提高。这显示了大型语言模型的集体力量和强大能力。

更令人惊讶的是,这种大型语言模型不仅仅是简单地回答问题。

如果要求它详细解释推理过程,它会告诉原因来给你一个合理的解释。比如你问它为什么会下雨,它会告诉下雨是由于水蒸气在大气中冷却凝结形成水滴,然后这些水滴聚集在一起形成云和降水的过程。这显示出它能够提供完整的思维过程。

科学家推测,在大型语言模型中,AI可能已经建立起一种思考链,能够以逻辑推理的方式回答简单的数学问题和常识推理题目。AI对"思考"的模拟变得越来越真实。

五、GPT训练的资料是怎么来的

GPT之所以能够变得如此庞大,依赖于超过45TB的训练数据。但你是否曾思考这些数据是如何获得的呢?

GPT的数据大约有20%来自Reddit。

GPT的数据大约有20%来自Reddit

OpenAI收集了在Reddit上Karma值大于3的用户帖文作为训练数据。这些数据经过人类整理,文章清晰易懂,类似于带有完整标记的文本,是优秀的参考材料。

除了Reddit,Twitter和维基百科也是OpenAI的数据收集来源。超过60%的数据来自非营利组织Common Crawl的爬虫程序收集的数据。

维基百科

Common Crawl定期抓取网络上公开的所有网页信息,供搜索引擎、AI研究人员等使用。然而,这超过300TB的数据是杂乱无章的,并不是高质量的数据。由于Common Crawl没有筛选数据,它抓取的内容五花八门,这也导致GPT出现了许多抄袭和智慧财产权的争议。

Common Crawl

CNN、华尔街日报等多家主流媒体曾指控OpenAI在未经许可的情况下使用他们的文章来训练GPT。然而,像GPT-3这样庞大的模型并不是人人都能拥有的。GPT-3庞大的数据量和参数使其训练成本超过百万美元,这还不包括服务器维护成本。

为了减少服务器负载,Bing浏览器限制了用户数量和每日查询量。

不仅微软采取了这个措施,在Bing发布的同一天,Google也做了类似的准备。

除了可能面临未来竞争对手的挑战外,GPT本身还存在许多不足之处。

OpenAI在论文中特别提到他们非常担心这样的工具会被有心人士滥用,并且无限制地收集数据会受到网络数据的影响。

OpenAI进行了一项调查,研究文本中对亚洲人、黑人、白人、拉丁裔等人种的形容词,给予正面形容词正分,负面形容词负分。

描述黑人的形容词,分数明显低于其他人种

他们发现描述黑人的形容词得分明显低于其他人种。这种现象并不会随着参数增加而改善,类似的问题在性别、宗教等方面也存在。

此外,如果网络上的错误信息比正确信息更多,会影响样本的有效性。

针对这些问题,OpenAI的技术长Mira Murati在接受TIME杂志的采访时表示,这是一个关键时刻,类似OpenAI的公司应受到一定程度的规范。我们必须确保AI为人类服务,并且我们必须倾听来自哲学家、社会科学家、艺术家、人文学专家等不同领域的建议。OpenAI将审慎确保AI不会对人类造成伤害。

OpenAI的技术长Mira Murati


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1