目前 Azure OpenAI 还没有官方公开资源详细说明 ChatGPT 的技术原理,因此我们将以 ChatGPT 的兄弟模型 InstructGPT 为对象,深度解析其算法架构设计。
Azure OpenAI- ChatGPT
Azure OpenAI-ChatGPT
如上图所示,开发人员将提示分为三个阶段,并以不同的方式为每个阶段创建响应和训练:
第 1 阶段
训练监督策略模型
在这个阶段,工程师会在数据集中随机抽取问题,由专门的标注人员给出高质量答案,然后用这些人工标注好的数据来微调 GPT-3.5 模型。这些标注人员会在应聘前进行筛选测试,训练数据大约有1万3千个。相较于第二、三阶段,这里用到的数据量较少。
标注人员根据提示 (prompt) 编写质量可靠的输出响应 (demonstrations)。这里采用的是 Supervised Fine-Tuning(SFT)模型,即有监督的策略来进行微调。微调之后,SFT 模型在遵循指令/对话方面已经优于 GPT-3.5,但不一定符合人类偏好。
第 2 阶段
训练奖励模型
这一阶段主要是训练一个奖励模型Reward Modeling (RM)。这里的训练数据是怎么得到的呢?首先通过在数据集中随机抽取问题,使用第一阶段生成的模型,对每个问题生成多个不同的回答,然后再让标注人员对这些回答进行排序。对于标注人员来说,对输出进行排序比从头开始打标要容易得多,因此这一过程可以扩展数据量,大约产生3万3千个训练用的数据。
接下来,再使用这个排序结果来训练奖励模型。对于多个排序结果,两两组合,形成多个训练数据对。RM 模型接受输入后,给出评价回答质量的分数。对于一对训练数据,通过调节参数使得高质量回答的打分比低质量的打分要高。奖励模型学会了为评分高的响应计算更高的奖励,为评分低的回答计算更低的奖励。
第 3 阶段
采用 PPO 强化学习进行优化
PPO (Proximal Policy Optimization,近端策略优化)是一种用于在强化学习中训练 agent 的策略,这里被用来微调 SFT 模型。这一阶段利用第二阶段训练好的奖励模型,靠奖励打分来更新预训练模型参数。在数据集中随机抽取问题后,使用 PPO 模型生成回答,并用上一阶段训练好的 RM 模型计算奖励,给出质量分数,然后用这个奖励来继续更新 PPO 模型。奖励依次传递,由此产生策略梯度,通过强化学习的方式更新 PPO 模型参数。
不断重复第二和第三阶段,通过迭代,会训练出更高质量的 InstructGPT 模型。我们将来自于人类反馈的强化学习简称为 RLHF(reinforcement learning from human feedback):使用人类的偏好作为奖励信号来微调模型。这也是 ChatGPT 在实际对话过程中的输出更符合人类偏好的原因。
关于深圳云展
深圳市云展信息技术有限公司成立于2015年,专注于云计算, BI大数据,数据中心, IoT物联网,人工智能, IT基础架构,信息安全等专业领域的高新技术企业,在广州、武汉等地设有分支机构,与众多的国内外知名软件厂商实现了全方位的紧密合作,先后的成为Microsoft、AWS、 Oracle、 VMware、 Citrix、 IBM、 Dell EMC、 Veritas、华为、阿里、腾讯的服务提供商,拥有丰富的软件产品线和解决方案。
公司核心技术骨干来自Microsoft, VMware, Dell EMC, Oracle等大型跨国IT企业技术服务部门或者MVP(微软最有价值专家)社区,拥有60多名技术工程师, 70% 获得Microsoft, VMware, Citrix, 华为工程师认证。在云计算, BI大数据,数据中心, IoT物联网,人工智能, IT基础架构,信息安全等技术领域拥有丰富经验。同时,为客户提供数字化转型解决方案的设计、开发、交付、运维一体化服务和最佳实践,服务超过800多家政府事业单位,企业。