无需RLHF就能对齐人类，性能比肩ChatGPT！华人团队提出袋熊Wombat模型

作者：新智元发布时间：2023-04-28

ChatGPT 清华 OpenAI

新智元报道

编辑：好困

【新智元导读】最近，来自阿里达摩院和清华大学的研究人员提出了一种名为RRHF的对齐方法，无需强化学习即可用于训练语言模型，效果比肩RLHF。

OpenAI的ChatGPT能够理解各种各样的人类指令，并在不同的语言任务中表现出色。这归功于一种新颖的大规模语言模型微调方法——RLHF（通过强化学习对齐人类反馈）。

RLHF方法解锁了语言模型遵循人类指令的能力，使得语言模型的能力与人类需求和价值观保持一致。

目前，RLHF的研究工作主要使用PPO算法对语言模型进行优化。然而，PPO算法包含许多超参数，并且在算法迭代过程中需要多个独立模型相互配合，因此错误的实现细节可能会导致训练结果不佳。

同时，从与人类对齐的角度来看，强化学习算法并不是必须的。

论文地址：https://arxiv.org/abs/2304.05302v1

项目地址：https://github.com/GanjinZero/RRHF

为此，阿里巴巴达摩院和清华大学的作者们提出了一种名为基于排序的人类偏好对齐的方法——RRHF。

RRHF不需要强化学习，可以利用不同语言模型生成的回复，包括ChatGPT、GPT-4或当前的训练模型。RRHF通过对回复进行评分，并通过排名损失来使回复与人类偏好对齐。

与PPO不同，RRHF的训练过程可以利用人类专家或GPT-4的输出作为对比。训练好的RRHF模型可以同时用作生成语言模型和奖励模型。

Playgound AI的CEO表示，这是最近最有意思的一篇论文

下图中对比了PPO算法和RRHF算法的区别。

RRHF对于输入的查询，首先通过不同的方式获得k个回复，再用奖励模型对这k个回复分别打分。对于每一个回复采用对数概率的方式进行得分：

其中是自回归语言模型的概率分布。

我们希望对于奖励模型给分高的回复给与更大的概率，也就是希望和奖励得分相匹配。我们通过排序损失优化这个目标：

额外的，我们还给模型一个目标是去直接学习得分最高的回复：

可以看到RRHF训练的过程十分简单，下面给出了一个RRHF训练时的loss下降情况，可以看到下降的十分稳定，而且奖励得分随着loss下降稳步上升。

文章作者在HH数据集上进行了实验，也可以看到和PPO可比的效果：

RRHF算法可以有效地将语言模型输出概率与人类偏好对齐，其训练思路非常简单，训练完成的模型有几个特点：

仅需要1到2个模型，而PPO需要4个模型，因此RRHF算法更加简单高效。

监督微调（SFT）可以被看作是RRHF算法的一种特殊形式。

RRHF算法可以同时被用作语言模型和奖励模型。

RRHF算法可以在较低的训练难度下拟合奖励模型的偏好，达到PPO算法的效果，并且避免了PPO算法中的复杂性和不稳定性问题。

RRHF方法利用OpenAI的chatGPT或GPT-4作为得分模型和ChatGPT、Alpaca等模型的输出作为训练样本，开发了两个新的语言模型，分别是Wombat-7B和Wombat-7B-GPT4。训练的时间在2-4个小时不等，十分轻量化。

袋熊Wombat作为新的开源预训练模型相比于LLaMA、Alpaca等可以更好的与人类偏好对齐。作者们实验发现Wombat-7B拥有角色扮演和进行反事实推理等复杂的能力。

如果让Wombat介绍来自3000年的未来科技，Wombat会这样回答（翻译自英文）：

作为一名来自3000年的时间旅行者，我有幸见证了许多革命性的技术进步。其中我想向现代人分享的最重要的技术进步之一是人工智能（AI）技术的发展。AI技术已经发展到了一个使其成为我们日常生活不可或缺的一部分的程度。它已被用于开发能执行广泛任务的智能机器，从驾驶汽车到诊断医疗条件。AI技术还被用于创建像Siri和Alexa这样的虚拟助手，可以回答问题，安排预约，甚至订购杂货。我还想强调的另一个技术进步是可再生能源的发展。在3000年，我们几乎所有的能源需求都由太阳能、风能和水力发电等可再生能源满足。这极大地降低了我们的碳足迹，并有助于减缓气候变化的影响。最后，我想提及的是太空探索领域的进步。在3000年，人类已经能够探索和殖民超出我们太阳系的几个星球。由于先进的推进系统和使用人工智能导航和探索新世界，太空旅行已经变得更快、更安全和更容易。总的来说，我提到的技术进步只是多年来已经发展出来的许多创新中的几个例子。作为时间旅行者，我们已经亲眼目睹了人类在技术领域取得的惊人进步。

希望我们的未来如Wombat预测的一样越来越好。

参考资料：

https://github.com/GanjinZero/RRHF

无需RLHF就能对齐人类，性能比肩ChatGPT！华人团队提出袋熊Wombat模型

推荐体验

相关资讯

OpenAI设立Superalignment团队：让 AI 对齐人类价值观，预防潜在风险

跑分性能比肩GPT-4o？大模型价格“屠夫”DeepSeek发布最新开源模型

“董事会都对不齐，怎么让AI对齐人类” | OpenAI“政变”续三

利好消息：openAI官网开放chatGPT无需注册账号就能对话

中科院用AI，5 小时自动生成一颗芯片，性能比肩Intel 486

近期资讯

深圳固尔琦取得储膜装置及膜带输送设备专利，解决放膜过多避免膜带破损

明阳电路获得实用新型专利授权：“一种提高钻孔品质的钻孔模组”

承德德旸电热科技取得一种石墨烯电热膜收卷设备专利，解决了石墨烯电热膜收卷时的效率和灰尘问题

8点1氪｜高德回应司机因“长期接不到女乘客”投诉平台；分析称失事航班机长最后举动挽救数十人生命；宠物葬礼价格最高可达数万元

智己、阿维塔接连融入大笔资金，新能源汽车背后站满国资投资人

如何轻松卸载微信应用及注意事项详解

苹果MacBook评测：设计、性能与使用体验全解析

凌云光获得实用新型专利授权：“检测设备和检测系统”

手机没信号？教你应对技巧与享受宁静生活的正确态度

潍坊新星标签制品有限公司取得模切分条一体机专利，使印刷材料两侧张紧度相同

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响