为什么最新的大语言模型（如ChatGPT）都使用强化学习来做微调？

作者：博人一笑轰趴馆发布时间：2023-03-04

最近，随着ChatGPT（ChatGPT模型卡：

ChatGPT（ChatGPT）详情 | 数据学习 (DataLearner)

）的火爆，大语言模型（Large language model）再次被大家所关注。当年BERT（BERT模型卡：

BERT（Bidirectional Encoder Representations from Transformers）详情 | 数据学习 (DataLearner)

）横空出世的时候，基于BERT做微调风靡全球。但是，最新的大语言模型如ChatGPT都使用强化学习（Reinforcement Learning, RL)来做微调（finetuning），而不是用之前大家所知道的有监督的学习（supervised learning，SL）。这是为什么呢？

著名AI研究员Sebastian Raschka解释了这样一个很重要的转变。大约有5个原因促使了这一转变。原文详情：

为什么最新的大语言模型（如ChatGPT）都使用强化学习来做微调（finetuning）？ | 数据学习者官方网站(Datalearner)

原因1：预测response比预测排序更重要

在有监督的学习中，我们通常都将真实标签和模型输出之间的最小化作为目标。对某些提示（certain prompts）来说，标签（Labels）实际上是对response的排名分数。因此，使用常规的有监督学习对模型进行微调实际上是让模型来预测排序，而不是让模型来预测response。

上图是基于prompt微调语言模型的一个过程，可以看到，当前大语言模型的微调过程是西安基于prompt抽取几个输出，然后labeler将答案排序，最后用排序结果来训练奖励模型。可以看到，模型的训练重点是要求模型可以预测更好的response。

原因2：多轮对话需要累积奖励

好吧，那么我们为什么不把这个任务重新表述为一个受限的优化问题，这样我们就有一个由 “输出文本损失 “和 “奖励分数 “项组成的综合损失，我们与SL共同优化？当然，如果我们想让模型产生正确的问答对，上述的约束性优化是可行的。但是ChatGPT应该有连贯的对话，所以我们也需要累积奖励。

原因3：交叉熵损失函数无法有效检测文本中细微的差别

回到上面提到的有监督学习的符号级损失：在有监督学习中，我们通过交叉熵优化损失。如果我们改变个别的词（tokens），由于总和规则，这只会对一个文本段落的整体损失产生小的影响。但是，否定一个词可以完全改变文本的含义，所以交叉熵并不是这种问题的最佳损失函数。

原因4：强化学习比有监督学习更能考虑整体影响

其实，用有监督学习来训练大语言模型模型也不是不可能。事实上，在 “Learning to Summarize from Human Feedback (2023)”的论文中已经做到了这一点。只是与有人类反馈的RL相比，它的表现并不那么好。根据经验，RLHF的表现往往比SL好。SL使用的是符号级的损失（可以对文本段落进行求和或求平均），RL则是将整个文本段落作为一个整体来考虑。

原因5：有监督学习其实和强化学习都很重要

如下图所示：

相关资讯

为什么最新的大语言模型（如ChatGPT）都使用强化学习来做微调？

推荐体验

相关资讯

为什么ChatGPT用强化学习而非监督学习？

GPT大语言模型引爆强化学习与语言生成模型的热潮、带你了解RLHF

chatgpt与对话的强化学习

ICLR 2023｜PromptPG：当强化学习遇见大规模语言模型

强化学习

近期资讯

我给validation-api增加了按条件参数校验的功能并开源了

2024 年第 53 周草梅周报：2024 年度项目总结与展望

欧美汽车市场低迷意大利陷入车企产能下降、工人失业困境

印度一男子为逃票藏火车车轮间被发现时已跑250公里

欧盟新规正式生效：强制统一USB-C！iPhone 14等已停售

你觉得帅吗！2024全球最帅100面孔：男人看了都流口水...

【OpenHarmony】鸿蒙 UI开发之WheelPicker

前11月特斯拉城市销量榜：杭州人买的最多苏州排第二

电动汽车非未来污染环境！日本赢麻氢才是王道真相来了

经销商：过去大家都不看好零跑现在抢着进零跑体系

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响