高效且准确，左脚踩右脚登天：OpenAI新模型用GPT改进GPT训练

作者：AI研习所发布时间：2024-06-28

随着 ChatGPT 的准确性日益提升，错误越来越隐蔽，导致 AI 训练员的工作越来越“难做”。OpenAI 对此解释称，这是 RLHF 的基本局限之一 —— 模型逐渐变得比任何可以提供反馈的人都更博学，模型的协调可能也会随之变得越来越困难。而就当地时间6月27日，OpenAI突然宣布推出全新人工智能模型CriticGPT，这是一款基于GPT4，用于捕捉ChatGPT代码输出中的错误的智能模型。它在用于给代码挑Bug时能找到75%以上，而相比之下人类只能找到不到25%；同时还可以给Bug写“锐评”。在使用CriticGPT时，人类评估员在60%的情况下比没有AI辅助的表现更好。CriticGPT的开发是AI领域的一大进步，它不仅增强了AI模型的自我纠错能力，也为AI与人类的协作提供了新的可能性。

Critic GPT的诞生

GPT-4之后这么久没有大的改进，而且还真的遇到一些瓶颈：随着AI能力变强，它犯的错也不那么显眼了，人类训练师都难以发现不准确之处。如果人类给不出反馈，那RLHF“人类反馈强化学习”就无从谈起了。而CriticGPT正是为了应对这一挑战而生，它基于GPT-4，也接受了RLHF训练出，但特别之处在于训练数据中包含大量的错误输入。具体来说，分为三步：

让人类标注员在ChatGPT生成的代码里故意植入一些微妙的bug。
标注员扮演代码审查员的角色，写下他们对这些bug的评论。
用这些数据来训练CriticGPT，让它学会如何发现和指出代码中的问题。

同时，OpenAI还使用了一种“强制采样束搜索”（FSBS）的技术，允许CriticGPT在生成评论时既能保持全面，又能减少”幻觉”和“鸡蛋里挑骨头”现象。具体来说，FSBS会强制模型生成多个不同的评论片段，用奖励模型对这些片段进行评分，最后根据评分和一个长度修正因子来选择最佳的评论组合。通过调整长度修正因子，可以在评论的全面性和准确性之间找到最佳平衡点，既不会错过重要问题，又不会过度挑剔。

Critic GPT的优点

提高准确性:CriticGPT通过增强RLHF，显著提升了AI模型输出的准确性，尤其在代码审查方面，能找出许多人类难以发现的问题。
减少错误:它能够帮助减少在代码中的错误，特别是那些由于模型复杂度增加而变得更加隐蔽的错误。
提升效率:CriticGPT可以自动化地审查代码，减少了人工审查所需的时间和工作量。
增强安全性:通过识别代码中的安全漏洞，CriticGPT有助于提升软件产品的安全性。
辅助人类评估员:CriticGPT可以作为人类评估员的辅助工具，提高他们审查代码的效率和质量。
自我学习和优化:CriticGPT使用PPO算法进行策略优化，能够不断学习和改进其错误检测的能力。
减少幻觉:CriticGPT有助于减少在评估过程中产生的幻觉或虚假错误，提高了评估的可靠性。
全面性:通过FSBS技术，CriticGPT能够生成更全面、更详细的评论，同时避免了无关紧要的问题或错误。
提升训练数据质量:CriticGPT的使用有助于生成更高质量的训练数据，进一步优化AI模型。
适应性强:CriticGPT的设计使其能够适应不同的AI输出和任务，具有较好的通用性

取得成果与应用实例

在发现人为插入的bug方面，人类审核员平均只能找到25%，而CriticGPT的成功率高达75%以上在评估自然出现的Bug时，有63%的情况下人类更倾向于选择CriticGPT的评论而非人类评论CriticGPT的评论被认为比ChatGPT的更全面，更少出现”幻觉”和无关紧要的挑剔在评估非代码任务时，成功识别出数百个在ChatGPT训练数据中被人类认为是”完美”的错误。不过CriticGPT也不是十全十美，它也会有”幻觉”问题，指出一些实际上不存在的问题。目前，人类和CriticGPT组队工作效果最好：既能发现大部分问题，又能避免AI的”幻觉”。