Azure OpenAI 官方指南02｜ChatGPT 的架构设计与应用实例

作者：微软中国MSDN发布时间：2023-03-03

关注我们

（本文阅读时间：9分钟)

ChatGPT 作为即将在微软全球 Azure 公有云平台正式发布的服务，已经迅速成为了众多用户关心的服务之一。而由 OpenAI 发布的 ChatGPT 产品，仅仅上线两个月，就成为互联网历史上最快突破一亿月活的应用。本期 从技术角度深度解析 ChatGPT 的架构设计与应用实例。

ChatGPT的起源╱ 01

InsturctGPT的架构设计╱ 02

ChatGPT的技术应用场景及示例╱ 03

ChatGPT 的起源

ChatGPT 是由 OpenAI 公司在 2022年11月推出的一款智能聊天机器人程序，属于 文本类AI应用。这里，Chat 即「聊天」，GPT 的全称为 “Generative Pre-trained Transformer”。由于采用 Transformer 架构，且 ChatGPT 在 GPT-3 大模型基础上专门针对 Chat 聊天能力做了性能上的调优，所以 ChatGPT 在 自然语言的许多交互场景中表现出了卓越的性能。

Transformer 模型在 2017年问世，能够同时 并行进行数据计算和模型训练，训练时长更短，并且训练得出的模型可用语法解释，也就是模型具有 可解释性。经过训练后，这个最初的 Transformer 模型在包括翻译准确度、英语成分句法分析等各项评分上都达到了业内第一，成为当时最先进的大型语言模型（Large Language Model, LLM）。

2018年，在 Transformer 模型诞生还不到一年的时候，OpenAI 公司发表了论文“ Improving Language Understanding by Generative Pre-training ” （用创造型预训练提高模型的语言理解力），并推出了具有 1.17亿个参数的GPT-1 （Generative Pre-training Transformers）模型。

这是一个用大量数据训练的、基于 Transformer 结构的模型。OpenAI 的工程师使用了经典的大型书籍文本数据集（BookCorpus）进行模型预训练。该数据集包含超过7000本从未出版的书籍，涵盖了冒险、奇幻、言情等类别。在预训练之后，工程师们又针对四种不同的语言场景、使用不同的特定数据集对模型进行进一步的训练 （又称为微调，Fine-Tuning）。最终训练所得的模型在问答、文本相似性评估、语义蕴含判定，以及文本分类这四种语言场景，都取得了比基础 Transformer 模型更优的结果，成为了新的业内第一。

2019年，OpenAI 公布了一个具有 15亿个参数的模型：GPT-2。该模型架构与 GPT-1 原理相同，主要区别在于 GPT-2 的规模更大（10倍）。同时，OpenAI 也发表了介绍该模型的论文 “Language Models are Unsupervised Multitask Learners” 。

2020年，OpenAI 发表论文 “Language Models are Few-Shot Learner” ，并推出了最新的 GPT-3 模型——它有 1750亿个参数。GPT-3 模型架构与 GPT-2 类似，但是规模大了整整两个数量级。GPT-3 的训练集也比前两款 GPT 模型要大得多：经过基础过滤的全网页爬虫数据集（4290亿个词符）、维基百科文章（30亿词符）、两个不同的书籍数据集（670亿词符）。

2022年3月，OpenAI再次发表论文 “Training Language Models to Follow Instructions with Human Feedback” ，并推出了基于 GPT-3 模型并进一步微调的 InstructGPT 模型。InstructGPT 的模型训练中加入了 人类的评价和反馈数据，而不仅仅是事先准备好的数据集，从而训练出更真实、更无害，且更好地遵循用户意图的语言模型。

2022年11月，ChatGP 横空出世，它是 基于 GPT-3.5 架构开发的对话AI模型，是 InstructGPT 的兄弟模型。但两者在训练模型的数据量上，以及数据收集、数据如何设置用于训练方面有所不同。

InsturctGPT 的 架构设计

目前 Azure OpenAI 还没有官方公开资源详细说明 ChatGPT 的技术原理，因此我们将以 ChatGPT 的兄弟模型 InstructGPT 为对象，深度解析其算法架构设计。

如上图所示，开发人员将提示分为 三个阶段，并以不同的方式为每个阶段创建响应和训练：

第 1 阶段

训练监督策略模型

在这个阶段，工程师会在数据集中随机抽取问题，由专门的标注人员给出高质量答案，然后用这些人工标注好的数据来微调 GPT-3.5 模型。这些标注人员会在应聘前进行筛选测试，训练数据大约有1万3千个。相较于第二、三阶段，这里用到的数据量较少。

标注人员根据提示 (prompt) 编写质量可靠的输出响应 (demonstrations)。这里采用的是 Supervised Fine-Tuning（SFT）模型，即有监督的策略来进行微调。微调之后，SFT 模型在遵循指令/对话方面已经优于 GPT-3.5，但不一定符合人类偏好。

第 2 阶段

训练奖励模型

这一阶段主要是训练一个 奖励模型Reward Modeling(RM)。这里的训练数据是怎么得到的呢？首先通过在数据集中随机抽取问题，使用第一阶段生成的模型，对每个问题生成多个不同的回答，然后再让标注人员对这些回答进行排序。对于标注人员来说，对输出进行排序比从头开始打标要容易得多，因此这一过程可以扩展数据量，大约产生3万3千个训练用的数据。

接下来，再使用这个排序结果来训练奖励模型。对于多个排序结果，两两组合，形成多个训练数据对。RM 模型接受输入后，给出评价回答质量的分数。对于一对训练数据，通过调节参数使得高质量回答的打分比低质量的打分要高。奖励模型学会了为评分高的响应计算更高的奖励，为评分低的回答计算更低的奖励。

第 3 阶段

采用 PPO 强化学习进行优化

PPO （Proximal Policy Optimization，近端策略优化）是一种用于在强化学习中训练 agent 的策略，这里被用来 微调 SFT 模型。这一阶段利用第二阶段训练好的奖励模型，靠奖励打分来更新预训练模型参数。在数据集中随机抽取问题后，使用 PPO 模型生成回答，并用上一阶段训练好的 RM 模型计算奖励，给出质量分数，然后用这个奖励来继续更新 PPO 模型。奖励依次传递，由此产生策略梯度，通过 强化学习的方式更新 PPO 模型参数。

不断重复第二和第三阶段，通过迭代，会训练出更高质量的 InstructGPT 模型。我们将来自于 人类反馈的强化学习简称为 RLHF（reinforcement learning from human feedback）：使用人类的偏好作为奖励信号来微调模型。这也是 ChatGPT 在实际对话过程中的输出更符合人类偏好的原因。

ChatGPT 的

技术应用场景及示例

总的来说，ChatGPT 有如下几大类技术应用的领域——

⦿ 对话机器人：可以用于生成自然语言对话，实现人机交互。

⦿ 文本生成：可以用于生成摘要、文章、诗歌等文本。

⦿ 问答系统：可以用于回答用户提出的问题，提供相关信息。

⦿ 自动翻译：可以用于实现自动翻译，将文本从一种语言翻译为另一种语言。

⦿ 情感分析：可以用于分析文本的情感倾向，实现情感分析。

⦿ 语音合成：可以用于生成语音，将文本转换为语音。

场景示例 1

NLP 领域

⦿ 生成摘要

⦿ 情感分析（小样本或零样本）

few-shot or zero-shot

⦿ 开放领域问答

⦿ 由文字生成表格

⦿ 数据集生成（小样本或零样本）

few-shot or zero-shot

◀︎ 向左滑动查看更多 ▶︎

场景示例 2

代码领域

⦿ 代码生成

⦿ 解释代码

⦿ 知识库生成

◀︎ 向左滑动查看更多 ▶︎

Azure OpenAI 官方指南

Vol.02 ChatGPT 作者

Annie Hu 微软云 AI 高级技术专家

谢谢你读完了本文！欢迎在评论区留言分享你的想法，并且转发到朋友圈。

关注微软开发者MSDN

喜欢记得分享哦~

近期资讯

1万元差价，全新长安CS75 PLUS选择1.5T还是2.0T？

12月24日，长安CS75 PLUS Ultra正式上市了，别看名字有点拗口，其实它就是2.0T版本。新车和1.5T版一样共推出2款车型，售价分别为13.19万和13.99万。这个价格和1.5T版的两款车型相比，也就是1万元的差价。因此很多小伙伴在问，多1万元选择2.0T版到底值不值，索性今天就来和大家聊聊这个话题。1万元差价，除了动力还有什么不同？1.5T版和2.0T版在设计方面几乎一致，所以我们就不过多的赘述了。配置方面它们的差异都体现在轮圈上，前者是225/55 R19，后者是235/50 R20，

汽车公告板 2024-12-27

随着科技的不断发展，环保意识的提高，各种检测仪器在各个领域得到了广泛的应用。在线总磷检测仪作为一种用于实时监测水中总磷含量的设备，已经广泛应用于工业生产、农业灌溉、生活用水等领域。然而，在使用过程中，由于各种原因，在线总磷检测仪可能会出现故障。本文将对在线总磷检测仪故障进行解析，并提出相应的应对措施。一、在线总磷检测仪故障解析 1. 仪器无法正常启动故障原因：电源线接触不良或电源插座故障。解决方法：检查电源线是否插紧，更换可靠的电源插座。 2. 仪器显示屏无反应或显示异常故障原因：显示屏损坏、显示

迈德施科技应用 2024-12-27

精选工厂工单系统，打造智能生产流程

选工厂工单系统需考虑功能、适配性、用户友好性、成本、安全性及市场口碑。ZohoDesk提供订单管理、任务分配等关键功能，助力企业提升生产效率、优化流程，实现成本控制和质量提升。一、了解工单系统的基本功能工单系统，亦称作业订单系统，是用来管理和跟踪产品从开始生产到完成的各个过程的系统。它涉及到订单接收、工作分派、进度追踪、质量控制及最终的报告分析等多个方面。通常情况下，一个高效的工单系统应包括以下基本功能：订单管理：系统能够处理来自不同客户的订单，支持订单的修改、取消和重新排程。任务分配与调度：合理的工作流

Zoho云服务 2024-12-27

在当今数字化浪潮中，数据宛如一座亟待挖掘的宝藏，而Snowflake作为新一代云数据平台的佼佼者，正引领着企业走向高效、灵活的数据管理与分析之路。世达教育推出Snowflake认证课程，旨在满足市场对Snowflake专业技术人才的迫切需求，为数据领域从业者提供提升技能与竞争力的优质学习平台。 [图片] （图片来源于官网） Snowflake是一种基于云的SQL数据仓库，其架构设计旨在提供高可用性、可扩展性和性能。Snowflake的架构分为三个主要部分：存储层、计算层和控制层。 · 存储层：负责数据的存

世达IT-薇儿的梦 2024-12-27

Azure OpenAI 官方指南02｜ChatGPT 的架构设计与应用实例

推荐体验

相关资讯

Azure OpenAI GPT架构设计以及模型训练指南

Azure OpenAI 官方指南04｜Codex的模型结构和应用场景

Azure OpenAI 官方指南 01｜GPT-3 的原理揭秘与微调技巧

揭秘GPT-4：OpenAI在架构设计中所做的工程权衡｜GGView

得物热点探测技术架构设计与实践、手把手教你开发Chatgpt应用 | 每日掘金第177期

近期资讯

1万元差价，全新长安CS75 PLUS选择1.5T还是2.0T？

ARMORED阿莫得隐形车衣-好车是柔软的“盔甲，抵御生活的尘沙

在线电导率检测仪故障解析及应对措施

在线总磷检测仪故障解析及应对措施

精选工厂工单系统，打造智能生产流程

格力电器卖的贵？董明珠回应：价值决定价格

建设现代化城市和城市科学

解锁数据潜能，从Snowflake认证课程启航

【高中生物】365条高频考点，有了它，成绩稳上85+！

高中政治必修四知识点满分必备小技巧

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响