不同于过去的机器人助手,它不仅能像真人一样聊天,回答的内容更加随机,而且可以保证一定的专业性和参考性,
随着人们的使用,提供高质量信息的获取方式,人们发现,它不仅可以编写出像样的程序,检查出代码的BUG,
还能帮助学生写出不错的论文,
甚至能够通过从医资格、律师资格的考试,这些能力让人惊掉了下巴!
国内某厂表示,ChatGPT从回答的逻辑性和完整性上都远超国内大模型,国内大模型带有明显的拼凑感,
今天我们来看看ChatGPT到底厉害在哪里呢?其背后的技术原理涉及到什么?
由于ChatGPT的论文还没有发布,我们还无法直接了解其背后的方法论,不过在OpenAI的官网,我们还是能找到一些蛛丝马迹,
比如训练使用了强化学习,并且加上一些人工反馈,使用的模型和InstructGPT是类似的,而InstructGPT论文去年就发布了,
纵观全文,其实其中很重要的一张图就能说明ChatGPT这个训练方式,
首先第一步,是OpenAI找了一些人,文章说的是找了40多个外包团队,他们会写出各种各样的问题,有点类似于小孩子看的“十万个为什么”,然后继续让some people写出答案,有了问题和答案后会在这上面做一些fine-training,中文叫做监督学习下的微调,调整的模型叫做SFT;
其次第二步,这里的InstructGPT做了一些什么事情呢?它会根据具体的问题生成一些随机答案,比如说A、B、C、D,然后根据这些答案让人们来进行排序,排序后的对比数据进行RM训练,也就是奖励模型的训练,最终模型会用于人类偏好的输出;
最后第三步,根据生成好的标量奖励,结合前面生成好的SFT模型,再不断的更新梯度,SFT+RM->Update,形成迭代;
那么接下来我就不和大家介绍文章中使用的实验数据和损失函数了,有兴趣的同学可以下载论文去学习下