随着 ChatGPT 的准确性日益提升,错误越来越隐蔽,导致 AI 训练员的工作越来越“难做”。OpenAI 对此解释称,这是 RLHF 的基本局限之一 —— 模型逐渐变得比任何可以提供反馈的人都更博学,模型的协调可能也会随之变得越来越困难。而就当地时间6月27日,OpenAI突然宣布推出全新人工智能模型CriticGPT,这是一款基于GPT4,用于捕捉ChatGPT代码输出中的错误的智能模型。它在用于给代码挑Bug时能找到75%以上,而相比之下人类只能找到不到25%;同时还可以给Bug写“锐评”。在使用CriticGPT时,人类评估员在60%的情况下比没有AI辅助的表现更好。CriticGPT的开发是AI领域的一大进步,它不仅增强了AI模型的自我纠错能力,也为AI与人类的协作提供了新的可能性。
GPT-4之后这么久没有大的改进,而且还真的遇到一些瓶颈:随着AI能力变强,它犯的错也不那么显眼了,人类训练师都难以发现不准确之处。如果人类给不出反馈,那RLHF“人类反馈强化学习”就无从谈起了。而CriticGPT正是为了应对这一挑战而生,它基于GPT-4,也接受了RLHF训练出,但特别之处在于训练数据中包含大量的错误输入。具体来说,分为三步:
同时,OpenAI还使用了一种“强制采样束搜索”(FSBS)的技术,允许CriticGPT在生成评论时既能保持全面,又能减少”幻觉”和“鸡蛋里挑骨头”现象。具体来说,FSBS会强制模型生成多个不同的评论片段,用奖励模型对这些片段进行评分,最后根据评分和一个长度修正因子来选择最佳的评论组合。通过调整长度修正因子,可以在评论的全面性和准确性之间找到最佳平衡点,既不会错过重要问题,又不会过度挑剔。
在发现人为插入的bug方面,人类审核员平均只能找到25%,而CriticGPT的成功率高达75%以上在评估自然出现的Bug时,有63%的情况下人类更倾向于选择CriticGPT的评论而非人类评论CriticGPT的评论被认为比ChatGPT的更全面,更少出现”幻觉”和无关紧要的挑剔在评估非代码任务时,成功识别出数百个在ChatGPT训练数据中被人类认为是”完美”的错误。不过CriticGPT也不是十全十美,它也会有”幻觉”问题,指出一些实际上不存在的问题。目前,人类和CriticGPT组队工作效果最好:既能发现大部分问题,又能避免AI的”幻觉”。
在教育和培训新手程序员时,CriticGPT提供实时的反馈和建议,提高学习效果和代码质量。
同时,这次OpenAI久违的放出了论文,还算有一些诚意。论文地址:https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf
高性价比GPU算力:
https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_0628_shemei