Azure OpenAI GPT架构设计以及模型训练指南

作者：深圳云展发布时间：2023-04-04

OpenAI

目前 Azure OpenAI 还没有官方公开资源详细说明 ChatGPT 的技术原理，因此我们将以 ChatGPT 的兄弟模型 InstructGPT 为对象，深度解析其算法架构设计。

Azure OpenAI- ChatGPT

Azure OpenAI-ChatGPT

如上图所示，开发人员将提示分为三个阶段，并以不同的方式为每个阶段创建响应和训练：

第 1 阶段

训练监督策略模型

在这个阶段，工程师会在数据集中随机抽取问题，由专门的标注人员给出高质量答案，然后用这些人工标注好的数据来微调 GPT-3.5 模型。这些标注人员会在应聘前进行筛选测试，训练数据大约有1万3千个。相较于第二、三阶段，这里用到的数据量较少。

标注人员根据提示 (prompt) 编写质量可靠的输出响应 (demonstrations)。这里采用的是 Supervised Fine-Tuning（SFT）模型，即有监督的策略来进行微调。微调之后，SFT 模型在遵循指令/对话方面已经优于 GPT-3.5，但不一定符合人类偏好。

第 2 阶段

训练奖励模型

这一阶段主要是训练一个奖励模型Reward Modeling (RM)。这里的训练数据是怎么得到的呢？首先通过在数据集中随机抽取问题，使用第一阶段生成的模型，对每个问题生成多个不同的回答，然后再让标注人员对这些回答进行排序。对于标注人员来说，对输出进行排序比从头开始打标要容易得多，因此这一过程可以扩展数据量，大约产生3万3千个训练用的数据。

接下来，再使用这个排序结果来训练奖励模型。对于多个排序结果，两两组合，形成多个训练数据对。RM 模型接受输入后，给出评价回答质量的分数。对于一对训练数据，通过调节参数使得高质量回答的打分比低质量的打分要高。奖励模型学会了为评分高的响应计算更高的奖励，为评分低的回答计算更低的奖励。

第 3 阶段

采用 PPO 强化学习进行优化

PPO （Proximal Policy Optimization，近端策略优化）是一种用于在强化学习中训练 agent 的策略，这里被用来微调 SFT 模型。这一阶段利用第二阶段训练好的奖励模型，靠奖励打分来更新预训练模型参数。在数据集中随机抽取问题后，使用 PPO 模型生成回答，并用上一阶段训练好的 RM 模型计算奖励，给出质量分数，然后用这个奖励来继续更新 PPO 模型。奖励依次传递，由此产生策略梯度，通过强化学习的方式更新 PPO 模型参数。

不断重复第二和第三阶段，通过迭代，会训练出更高质量的 InstructGPT 模型。我们将来自于人类反馈的强化学习简称为 RLHF（reinforcement learning from human feedback）：使用人类的偏好作为奖励信号来微调模型。这也是 ChatGPT 在实际对话过程中的输出更符合人类偏好的原因。

关于深圳云展

深圳市云展信息技术有限公司成立于2015年，专注于云计算， BI大数据，数据中心， IoT物联网，人工智能， IT基础架构，信息安全等专业领域的高新技术企业，在广州、武汉等地设有分支机构，与众多的国内外知名软件厂商实现了全方位的紧密合作，先后的成为Microsoft、AWS、 Oracle、 VMware、 Citrix、 IBM、 Dell EMC、 Veritas、华为、阿里、腾讯的服务提供商，拥有丰富的软件产品线和解决方案。

公司核心技术骨干来自Microsoft, VMware， Dell EMC, Oracle等大型跨国IT企业技术服务部门或者MVP(微软最有价值专家)社区，拥有60多名技术工程师， 70% 获得Microsoft, VMware, Citrix, 华为工程师认证。在云计算， BI大数据，数据中心， IoT物联网，人工智能， IT基础架构，信息安全等技术领域拥有丰富经验。同时，为客户提供数字化转型解决方案的设计、开发、交付、运维一体化服务和最佳实践，服务超过800多家政府事业单位，企业。

Azure OpenAI GPT架构设计以及模型训练指南

推荐体验

相关资讯

Azure OpenAI 官方指南02｜ChatGPT 的架构设计与应用实例

揭秘GPT-4：OpenAI在架构设计中所做的工程权衡｜GGView

微软Azure版GPT-4o部署指南 Azure OpenAI

微软 Azure 版 OpenAI GPT-4o部署指南 | Azure OpenAI攻略

友商慌了！？天玑9300全大核架构设计实力解析

近期资讯

广东盈科电子申请一种 LED 灯显示驱动方法及应用该方法的电路专利，能在成本及空间有限情况下达到显示效果

普瑞光电申请发光二极管光源装置及其驱动方法专利，解决脉宽调制信号调色温的频闪问题

安徽福铄取得带有过滤机构的纳米矿晶用加热搅拌器专利，提高了纳米矿晶搅拌加热的效果

河南中联高科取得石墨预处理混料处理装置专利，解决了石墨材料粘连结块和原料粘附问题

江苏欧亚照明申请一种太阳能路灯的控制方法、系统及存储介质专利，实现多个太阳能路灯共同工作下的精确控制

上海流丹取得一种高速湿法分散装置专利，使分散搅拌液体物料和固体物料混合更加均匀

畅索软件科技申请车载氛围灯控制专利，实现结合中控显示屏实时动态调整灯光颜色

江苏能胜取得印刷专用油墨调墨装置专利，避免对调墨工作人员的身体健康产生影响

四川莱福德申请用于DC-DC LED调光电源的恒流检测控制电路专利，提高BUCK驱动应用设计灵活性

上海芯圣电子申请 LED 灯带去抖动专利，避免电源抖动保证灯带正常点亮

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响