ChatGPT 的起源

作者：深圳云展发布时间：2023-04-04

ChatGPT 是由 OpenAI 公司在 2022年11月推出的一款智能聊天机器人程序，属于文本类AI应用。这里，Chat 即「聊天」，GPT 的全称为“Generative Pre-trained Transformer”。由于采用 Transformer 架构，且 ChatGPT 在 GPT-3 大模型基础上专门针对 Chat 聊天能力做了性能上的调优，所以 ChatGPT 在自然语言的许多交互场景中表现出了卓越的性能。

Azure OpenAI- ChatGPT

Transformer 模型在2017年问世，能够同时并行进行数据计算和模型训练，训练时长更短，并且训练得出的模型可用语法解释，也就是模型具有可解释性。经过训练后，这个最初的 Transformer 模型在包括翻译准确度、英语成分句法分析等各项评分上都达到了业内第一，成为当时最先进的大型语言模型（Large Language Model, LLM）。

2018年，在 Transformer 模型诞生还不到一年的时候，OpenAI 公司发表了论文“Improving Language Understanding by Generative Pre-training”（用创造型预训练提高模型的语言理解力），并推出了具有1.17亿个参数的GPT-1（Generative Pre-training Transformers）模型。

这是一个用大量数据训练的、基于 Transformer 结构的模型。OpenAI 的工程师使用了经典的大型书籍文本数据集（BookCorpus）进行模型预训练。该数据集包含超过7000本从未出版的书籍，涵盖了冒险、奇幻、言情等类别。在预训练之后，工程师们又针对四种不同的语言场景、使用不同的特定数据集对模型进行进一步的训练（又称为微调，Fine-Tuning）。最终训练所得的模型在问答、文本相似性评估、语义蕴含判定，以及文本分类这四种语言场景，都取得了比基础 Transformer 模型更优的结果，成为了新的业内第一。

2019年，OpenAI 公布了一个具有15亿个参数的模型：GPT-2。该模型架构与 GPT-1 原理相同，主要区别在于 GPT-2 的规模更大（10倍）。同时，OpenAI 也发表了介绍该模型的论文“Language Models are Unsupervised Multitask Learners”。

2020年，OpenAI 发表论文“Language Models are Few-Shot Learner”，并推出了最新的 GPT-3 模型——它有1750亿个参数。GPT-3 模型架构与 GPT-2 类似，但是规模大了整整两个数量级。GPT-3 的训练集也比前两款 GPT 模型要大得多：经过基础过滤的全网页爬虫数据集（4290亿个词符）、维基百科文章（30亿词符）、两个不同的书籍数据集（670亿词符）。

2022年3月，OpenAI再次发表论文“Training Language Models to Follow Instructions with Human Feedback”，并推出了基于 GPT-3 模型并进一步微调的 InstructGPT 模型。InstructGPT 的模型训练中加入了人类的评价和反馈数据，而不仅仅是事先准备好的数据集，从而训练出更真实、更无害，且更好地遵循用户意图的语言模型。

2022年11月，ChatGP 横空出世，它是基于 GPT-3.5 架构开发的对话AI模型，是 InstructGPT 的兄弟模型。但两者在训练模型的数据量上，以及数据收集、数据如何设置用于训练方面有所不同。

深圳市云展信息技术有限公司成立于2015年，专注于云计算， BI大数据，数据中心， IoT物联网，人工智能， IT基础架构，信息安全等专业领域的高新技术企业，在广州、武汉等地设有分支机构，与众多的国内外知名软件厂商实现了全方位的紧密合作，先后的成为Microsoft、AWS、 Oracle、 VMware、 Citrix、 IBM、 Dell EMC、 Veritas、华为、阿里、腾讯的服务提供商，拥有丰富的软件产品线和解决方案。

目前提供Azure OpenAI, ChatGPT试用，解决方案咨询，应用开发与推广，托管运维技术服务。