OpenAI突发新模型：用GPT改进GPT训练，左脚踩右脚登天，RLHF突破人类能力上限

作者：量子位发布时间：2024-07-03

OpenAI 编程 ChatGPT

梦晨发自凹非寺

量子位 | 公众号 QbitAI

OpenAI突然发布新模型！基于GPT-4训练，可以帮助下一代GPT训练。

CriticGPT，用于给代码挑Bug时能找到75%以上，而相比之下人类只能找到不到25%。

它还可以给Bug写“锐评”，在60%的情况下人类训练师更喜欢有CriticGPT帮助下的批评。

有网友开玩笑说，“只会批评的GPT，这不是我前妻么”。

但这项研究最重要之处在于，CriticGPT挑错能力可以泛化到代码之外。

比如在RLHF训练中给AI的输出挑错，而且已经进入OpenAI内部训练流程。

更好的RLHF就能训练出更强的模型，更强的模型又能通过更好地挑错来增强RLHF训练……

论文结论中赫然写道：在真实世界数据中挑错误上，AI还可以继续进步，人类智能已经到头了。

左脚踩右脚上天，难道真的被这帮人给搞出来了？

这是一篇来自被解散的超级对齐团队的“遗作”，由前负责人Jan Leike带队。

而Leike本人已经跳槽去了隔壁Anthropic，继续做这类研究。

基于GPT-4，改进GPT-4

OpenAI官网文章变相承认了，GPT-4之后这么久没有大的改进，还真的遇到一些瓶颈：

随着AI能力变强，它犯的错也不那么显眼了，人类训练师都难以发现不准确之处。

人类给不出反馈，那RLHF“人类反馈强化学习”就无从谈起了。

CriticGPT正是为了应对这一挑战而生。

CriticGPT基于GPT-4，也接受了RLHF训练出，但特别之处在于训练数据中包含大量的错误输入。

具体来说，分为三步：

让人类标注员在ChatGPT生成的代码里故意植入一些微妙的bug。
标注员扮演代码审查员的角色，写下他们对这些bug的评论。
用这些数据来训练CriticGPT，让它学会如何发现和指出代码中的问题。

在具体训练过程中，他们还玩了点花样。

比如不断让标注员验证自己插入的bug是否足够隐蔽，能够骗过当前版本的CriticGPT。这样一来，CriticGPT就被迫不断进化，学会发现越来越隐蔽的问题。

思路有点像GAN的左右互搏，只不过生成器这个位置是人类来充当的……

最后，OpenAI还使用了一种“强制采样束搜索”（FSBS）的技术，允许CriticGPT在生成评论时既能保持全面，又能减少”幻觉”和“鸡蛋里挑骨头”现象。

具体来说，FSBS会强制模型生成多个不同的评论片段，用奖励模型对这些片段进行评分，最后根据评分和一个长度修正因子来选择最佳的评论组合。

通过调整长度修正因子，可以在评论的全面性和准确性之间找到最佳平衡点，既不会错过重要问题，又不会过度挑剔。

等一下，推理时搜索，这不正是和传闻中的Q*一个思路，这次居然写到了论文里。

可能是看外部团队（如颜水成）按这一思路的研究已经够多了，就不再藏着掖着了。

说回到CriticGPT，取得了哪些结果呢？

在发现人为插入的bug方面，人类审核员平均只能找到25%，而CriticGPT的成功率高达75%以上
在评估自然出现的Bug时，有63%的情况下人类更倾向于选择CriticGPT的评论而非人类评论
CriticGPT的评论被认为比ChatGPT的更全面，更少出现”幻觉”和无关紧要的挑剔
在评估非代码任务时，成功识别出数百个在ChatGPT训练数据中被人类认为是”完美”的错误。

不过CriticGPT也不是十全十美，它也会有”幻觉”问题，指出一些实际上不存在的问题。

目前，人类和CriticGPT组队工作效果最好：既能发现大部分问题，又能避免AI的”幻觉”。

RLHF上限不再是人类

对于CriticGPT，负责这项研究的Jan Leike也补充了他自己的一些看法。

RLHF是创造出ChatGPT的核心技术之一，但隐患在于人类能力就是RLHF的天花板。

当需要AI去解决人类无能为力的任务时，人类给不出相应反馈，AI也就无法改进了。

CriticGPT的成功，意味着超级对齐团队设想中的可扩展监督，也就是用弱模型监督训练更强的模型，终于有希望了。

不过他也透露，目前CriticGPT并没有帮助人类显著提高艰难任务上的准确性，但是框架有了只要有更好的预训练模型就能不断改进。

为什么先从代码任务开始入手呢？

一方面，代码任务有现实意义，做出来的模型可以直接用上。

另一方面，代码可以清晰明确的评估，比开放式对话更客观，更容易评估CriticGPT发现的问题是否真实和重要。

结果CriticGPT在代码上训练，却不仅能挑代码Bug，还给1/4的ChatGPT生产数据挑出了问题。

最后，由于原OpenAI超级对齐团队已经解散，已经跳槽的Jan Leike插入了一条Anthropic招聘广告：

想做后续研究的请去隔壁。

也是让人不得不感叹硅谷是真的没有竞业协议。

One More Thing

同日，谷歌发布了开源大模型Gemma 2，OpenAI赶紧甩出一条消息来狙击，这都第几次了。

对于甩出来的不是Sora公测或者GPT-4o完整语音、视频模式，也有很多人不满。

有网友提了个更好的主意：

做个ReleaseGPT，专门用来发布承诺好的更新吧。

不过这次OpenAI久违的放出了论文，也还算有一些诚意。

论文地址：

https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf

参考链接：

[1]https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

[2]https://x.com/janleike/status/1806386442568142995

— 完—

量子位年度AI主题策划正在征集中！

欢迎投稿专题一千零一个AI应用，365行AI落地方案

或与我们分享你在寻找的AI产品，或发现的AI新动向

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

相关资讯

高效且准确，左脚踩右脚登天：OpenAI新模型用GPT改进GPT训练

随着 ChatGPT 的准确性日益提升，错误越来越隐蔽，导致 AI 训练员的工作越来越“难做”。OpenAI 对此解释称，这是 RLHF 的基本局限之一 —— 模型逐渐变得比任何可以提供反馈的人都更博学，模型的协调可能也会随之变得越来越困难。而就当地时间6月27日，OpenAI突然宣布推出全新人工智能模型CriticGPT，这是一款基于GPT4，用于捕捉ChatGPT代码输出中的错误的智能模型。它在用于给代码挑Bug时能找到75%以上，而相比之下人类只能找到不到25%；同时还可以给Bug写“锐评

OpenAI ChatGPT GPT-4 人工智能编程

AI研习所 2024-06-28

左脚踩右脚上天！OpenAI全新模型让GPT-4训练GPT-4

快科技6月28日消息，OpenAI公布了一个基于GPT-4训练的模型CriticGPT，主要用于捕捉ChatGPT代码输出中的错误。简单来说，通过这一模型，人类训练者可以利用GPT-4查找并改进GPT-4自身…

OpenAI GPT-4 ChatGPT 编程

快科技 2024-06-30

用AI监督AI，OpenAI做到了用左脚踩右脚上天

众所周知，OpenAI旗下的ChatGPT之所以会表现出比以往AI产品更强的智能，RLHF是其中的关键，它可以借助人类反馈信号来直接优化语言模型，数据标注人员则通过给大模型产出的结果打分，由他们来负责判断大模…

OpenAI ChatGPT

三易生活 2024-07-08

AI生成物急增导致数据污染「左脚踩右脚」的学习路径导致模型崩坏

本文并非完全翻译原文，而是用更本地化的语言进行转述，并添加更多论文中内容。原文请参考以下链接：https://gigazine.net/news/20230614-feedback-loop/ 在Adobe发表使用“完全没有版权问题”的模型的AI图像生成软件「Firefly」，与最近接入Microsoft搜索引擎的「Chat GPT」活跃的背景下，据咨询公司在世界范围的调查，「有接近50%的在职人员开始在工作中使用生成式AI」。生成式人工智能已经开始大规模的在社会中传播。但是，由于使用生成式AI（以下简

生成式AI 人工智能微软搜索引擎

鹽焗魚 2023-06-14

OpenAI前对齐团队「遗作」：RLHF不够用了！用GPT-4训练GPT-4

在这两种设置下对来自LLM的批评进行评分时，人工训练师会将原始错误描述（插入或首次检测时撰写）作为背景提供给模型。「篡改」是对抗性收集的：在访问生成批评的LLM时，他们将在每三次样本中有意漏掉他们「篡改」的错…

OpenAI GPT-4

机器之心Pro 2024-07-05

近期资讯

鸿蒙原生开发手记：04-一个完整元服务案例

影院热映简介整个元服务分为 4-5 个页面，首页为列表页，展示了当前影院热门的电影，点开是一个详情介绍页，里面有影片详情，演职表，相关影片推荐等，热门海报。

zacksleo 2024-12-26

蒂法和爱丽丝3D圣诞图：浓浓的爱意克劳德全身绿

圣诞节已到，游戏博主Ria_neearts、ElenaChatNoir和Emy_san_arts绘制了蒂法与爱丽丝等人的3D圣诞图，展现了节日里他们浓浓的爱意。可以看到，蒂法等人依偎在巴雷特的怀里，一脸开心，旁边的克

2024-12-26

帧率提升200%！AMD RX 7900 XT挑战5款FSR 3.0大作

一、前言：蓝宝石RX 7900 XT极地挑战5款FSR 3游戏今年最火的游戏当属《黑神话：悟空》无疑，它也可能是目前为止最为消耗显卡资源的3A大作。即便是强如RTX 4090，在4K分辨率影视级画质下，

2024-12-26

李想：马斯克在中国高速深夜开过车他也会保留激光雷达！

快科技12月26日消息，今晚，在2024理想AI Talk对话节目中，理想CEO李想表示，如果马斯克在中国高速深夜开过车，特斯拉也会保留激光雷达。李想认为，中国汽车厂商保留激光雷达，并不是因为技术

2024-12-26

前端研发高德地图，如何根据经纬度获取地点名称和两点之间的距离？

地图的单击事件处理map.on('click', () => {})；根据经纬度获取具体地址：地理编码与逆地理编码引入插件;两点之间距离计算……

qingyingWin 2024-12-26

可以抛弃搜索引擎了 2024年微信最实用的三大AI功能

最近几年，最大的风口当属AI了。但你知道吗，其实微信早在2013年就推出了第一个AI功能——语音输入。今天，微信官方盘点了2024年微信最实用的三大AI功能，最后一个可以告别其他搜索

2024-12-26

【HarmonyOS】关于鸿蒙原生多环境的配置和管理

在开发中为了数据隔离和开发规范，一般情况下都需要配置多环境，方便开发、测试、部署，比如：dev、test、sit、gray、release等，不同公司在多环境使用上不尽相同。

走向菜鸟的菜鸟 2024-12-26

理想智驾负责人：李想对我发过1次火智驾做不到头部就走

快科技12月26日消息，理想汽车今日晚间举办“2024理想AI Talk”。主持人问道，听说李想对智驾团队曾发了很大的火，你怎么还能留在这儿？对此，理想汽车智能驾驶研发负责人郎咸朋博

2024-12-26

激光雷达和纯视觉之争结束了！李想：在中国必须用激光雷达

快科技12月26日消息，今日晚间，2024理想AI Talk对话迎来第二场。被问及“特斯拉没有用激光雷达，你们为什么要用”，理想汽车CEO李想坦言，保留激光雷达，还是为了安全。李想表示

2024-12-26

Apache Doris 创始人：何为“现代化”的数据仓库？

在 12 月 14 日的 Doris Summit Asia 2024 上，Apache Doris 创始人 & PMC 成员马如悦在开场演讲中，围绕“现代化数据仓库”这一主题，指出 3.0 版本是

SelectDB 2024-12-26

OpenAI突发新模型：用GPT改进GPT训练，左脚踩右脚登天，RLHF突破人类能力上限

推荐体验

相关资讯

高效且准确，左脚踩右脚登天：OpenAI新模型用GPT改进GPT训练

左脚踩右脚上天！OpenAI全新模型让GPT-4训练GPT-4

用AI监督AI，OpenAI做到了用左脚踩右脚上天

AI生成物急增导致数据污染「左脚踩右脚」的学习路径导致模型崩坏

OpenAI前对齐团队「遗作」：RLHF不够用了！用GPT-4训练GPT-4

近期资讯

鸿蒙原生开发手记：04-一个完整元服务案例

蒂法和爱丽丝3D圣诞图：浓浓的爱意克劳德全身绿

帧率提升200%！AMD RX 7900 XT挑战5款FSR 3.0大作

李想：马斯克在中国高速深夜开过车他也会保留激光雷达！

前端研发高德地图，如何根据经纬度获取地点名称和两点之间的距离？

可以抛弃搜索引擎了 2024年微信最实用的三大AI功能

【HarmonyOS】关于鸿蒙原生多环境的配置和管理

理想智驾负责人：李想对我发过1次火智驾做不到头部就走

激光雷达和纯视觉之争结束了！李想：在中国必须用激光雷达

Apache Doris 创始人：何为“现代化”的数据仓库？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响