跟李沐学ChatGPT背后技术：67分钟读透InstructGPT论文

作者：机器之心发布时间：2023-02-19

机器之心报道

编辑：张倩

InstructGPT 和 ChatGPT 之间有很多一脉相承之处。因此，吃透 InstructGPT 论文对于想要在 ChatGPT 方向上做些工作的同学来说将大有裨益。

在 ChatGPT 走红之后，很多关注技术的同学都在问一个问题：有没有什么学习资料可以让我们系统地了解 ChatGPT 背后的原理？由于 OpenAI 还没有发布 ChatGPT 相关论文，这一问题变得棘手起来。

不过，从 OpenAI 关于 ChatGPT 的博客中我们知道，ChatGPT 用到的方法和它的兄弟模型 ——InstructGPT 一样，只不过 InstructGPT 是在 GPT-3 上微调的，而 ChatGPT 则是基于 GPT-3.5。在数据收集工作上，二者也存在一些差别。

博客链接：https://openai.com/blog/chatgpt/

InstructGPT 的论文发布于 2022 年 3 月，不过 OpenAI 早在 1 月份就发布了相关博客（参见《

GPT-3 胡言乱语怎么办？OpenAI：我们重新调教了一下，新版本更「听话」

》）。当时，OpenAI 明确提到，InstructGPT 利用了人类反馈的强化学习方法（RLHF）对 GPT-3 进行微调，使得该模型的输出更加符合人类偏好，这点在 ChatGPT 的训练中得到了延续。

论文链接：https://arxiv.org/pdf/2203.02155.pdf

除此之外，InstructGPT 和 ChatGPT 之间还有很多一脉相承之处。因此，吃透 InstructGPT 论文对于想要在 ChatGPT 方向上做些工作的同学来说将大有裨益。这也是我们力荐李沐这节精讲课的原因。

李沐博士是亚马逊的资深首席科学家，之前和 Aston Zhang 等人共同撰写了《动手学深度学习》。最近两年，他一直通过视频向大家介绍各种 AI 知识，制作了几十篇论文的精读课程。很多同学已经养成了跟着李沐精读论文的习惯。

李沐博士在 B 站的账号是「跟李沐学 AI」。

这节针对 InstructGPT 的解读课程总共 67 分钟，基本按照论文撰写的顺序进行介绍。

看过 ChatGPT 博客的同学都知道，它的技术原理基本用一张图就能概括，这也是 InstructGPT 论文中就已经出现的一张图（二者有细微差别）。在解读论文的摘要和引言部分时，李沐详细介绍了图上的三个步骤。

ChatGPT 博客中的技术原理图。

InstructGPT 论文中的技术原理图。

在论文的第三章，InstructGPT 的作者首先介绍了他们的数据获取方法和过程，李沐也带着大家详细读了一下。这部分在工程方面非常有价值。正如李沐所说，如果你之前没有做过这样的事情（数据标注等），需要找人帮你标数据，那么你可以看它的附录部分，里面有很多模板可以直接拿来用，论文作者甚至描述了他们标注网站的 UI 长什么样，非常值得借鉴。

接下来，李沐重点解读了第三章写到的 3 个模型（见 3.5 Models ）——SFT (Supervised fine-tuning) 模型、RM (Reward modeling) 模型和 RL (Reinforcement learning) 模型，包括这些模型涉及的参数和目标函数等细节。

最后，李沐总结说，从技术上来讲，InstructGPT 还是一个非常实用的技术。它告诉了大家一个方法：给定一个大型语言模型，你怎样通过一些标注数据迅速地提升它在某一个你关心的领域中的性能，使它达到实用的程度。所以，它给想用生成模型做产品的人提供了一个可操作的思路。

当然，正如李沐博士所说，科研工作是循序渐进的，InstructGPT 也是建立在之前研究的基础上，所以想要吃透 ChatGPT 的同学不免还要回头去读更多论文。在之前的课程中，李沐也详细解读过 GPT、GPT-2、GPT-3 的论文：