OpenAI最新研究：减轻ChatGPT幻觉，要靠一步一步“过程监督”

作者：学术头条发布时间：2023-06-02

近年来，大型语言模型在进行复杂的、多步推理方面取得了很多进展。然而，即使是最先进的模型仍然会产生逻辑错误，这通常被称为幻觉（hallucinations）。减少幻觉是构建对齐的通用人工智能（AGI）的关键一步。

6 月 1 日，OpenAI 在最新研究中提出了一种减轻ChatGPT幻觉、实现更好的对齐的新方法——通过“过程监督”来提高 ChatGPT 等 AI 大模型的数学推理能力。

更详细一点，“过程监督”通过奖励每个正确的推理步骤，而不仅仅是奖励正确的最终答案（即“结果监督”），在解决数学问题方面达到了最先进水平。

据介绍，除了得到高于结果监督的性能表现外，过程监督或许也有助于解决对齐难题（它直接训练模型产生一个被人类认可的思维链）。

相对于结果监督，过程监督在对齐方面有几个优势。过程监督直接奖励按照对齐的思维链进行推理的模型，因为每个步骤都接受了精确的监督。过程监督更有可能产生可解释的推理，因为它鼓励模型遵循经过人类批准的过程。相比之下，结果监督可能会奖励一个不对齐的过程，并且一般更难审查。

具体到实际问题，OpenAI 的研究人员使用 MATH 测试集中的问题来评估过程监督和结果监督奖励模型。对于每个问题，他们生成了多个解决方案，然后选择每个奖励模型排名最高的解决方案。

下图显示了所选解决方案达到正确最终答案的百分比，作为所考虑的解决方案数量的函数。

结果表明，过程监督的奖励模型不仅在整体上表现更好，而且随着考虑每个问题的解决方案数量增加，性能优势也在扩大。这表明过程监督的奖励模型更加可靠。

目前，OpenAI 的研究人员尚不清楚这些结果能否应用在数学领域之外，但认为未来探索过程监督在其他领域中的影响的研究将非常重要。

相关资讯

OpenAI最新研究：减轻ChatGPT幻觉、更好地对齐，要靠一步一步“过程监督”

据介绍，除了得到高于结果监督的性能表现外，过程监督或许也有助于解决对齐难题（它直接训练模型产生一个被人类认可的思维链）。

OpenAI ChatGPT

学术君 2023-06-01

如何一步一步构建网站chatgpt插件

在本文中，我们将一步一步地探索并构建一个名为"AI Prompt Testing"的项目。该项目是一个网站插件，旨在帮助网站生成一个ChatGPT提示测试题，以巩固当前网页的内容。 1、抽象提取这个

ChatGPT 提示词

Terry啊 2023-05-07

Midjourney：一步一步教你如何使用 AI 绘画 MJ

一步一步如何使用 Midjourney 教程：教学怎么用 MJ？ ## 一、Midjourney（MJ）是什么？ ![file](http://image.openwrite.cn/10004_

Midjourney

程序员泥瓦匠 2023-04-21

前OpenAI科学家：走一步看一步，未定目标也有路？！

【CSDN编者按】你小时候有没有玩没玩过下面的这个东西（ChineseFingerTrap中国指铐）？当你把两手的食指同时插进管子的两头之后，手指就会被牢牢卡住，拔得越用力，卡得就越紧。换句话说，通往自由的踏脚石，是变得更不自由。

OpenAI

CSDN 2023-10-30

一步步解析ChatGPT：RNN模型

一起因RNN（循环神经网络）模型的由来可以用一个简单的比喻来解释：它就像是一位有记忆力的阅读者，可以阅读一本有序的书，并通过记住之前阅读的内容来理解和预测后面的内容。在传统的神经网络中，每个输入都是独立处理的，没有记忆能力。但是，对于很多任务来说，上下文和顺序信息是至关重要的。例如，理解语言的含义、预测时间序列中的趋势、翻译语句等都需要考虑到序列中的前后关系。RNN 的意义在于它引入了记忆单元，能够将之前的信息存储下来，并在后续处理中使用。这种记忆能力使得 RNN 在处理序列数据时非常有用。通过学习序列

ChatGPT

生信小院 2023-07-15

OpenAI最新研究：减轻ChatGPT幻觉，要靠一步一步“过程监督”

推荐体验

相关资讯

OpenAI最新研究：减轻ChatGPT幻觉、更好地对齐，要靠一步一步“过程监督”

如何一步一步构建网站chatgpt插件

Midjourney：一步一步教你如何使用 AI 绘画 MJ

前OpenAI科学家：走一步看一步，未定目标也有路？！

一步步解析ChatGPT：RNN模型

近期资讯

一体机开机与使用技巧指南：轻松上手，提升使用体验

随身WiFi使用指南：提升外出上网体验的技巧与注意事项

全面解析投影仪：选择、使用与维护的实用指南

苏州亿赛测控技术取得电机扭矩动静态测试设备专利，能够对电机动静态扭矩进行交替测试

河北润宏管道取得试压夹紧装置专利，便于手动对管件进行固定

山东康润水表取得带天线的防潮型水表专利，便于对天线组件的安装方向进行调节

全民K歌：畅享音乐乐趣，分享心声与感动的完美平台

福罗思德取得便于拆装维护的电磁流量计专利，解决现有电磁流量计拆装费力的问题

无锡芯灵微电子取得一种压力传感器的批量检测装置专利，能够解决压力传感器批量检测时的相关问题

宇宙新 X 射线源 Millinovae 被发现，亮度是太阳的 100 倍以上

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响