当前位置:首页|资讯|ChatGPT

ChatGPT的训练流程介绍(附ChatGPT教程)

作者:量子猫发布时间:2023-04-27

原标题:ChatGPT的训练流程介绍(附ChatGPT教程)

今天给大家分享的是【ChatGPT的训练流程介绍】

关注公众号【人工智能学派】获取ChatGPT账号和教程

ChatGPT 的训练流程

1、收集“展示 数据(Demonstration Data)”并训练出基于监督学习的决策策略;

2、收集对比数据训练 奖励模型;

3、使用 PPO 强化学习算法针对奖励模型优化策略。

ChatGPT 目前基于 GPT3 和 GPT-4 技术之间,GPT-3 于 2020 年发布,GPT-4 有望于 2023 年上半年发布。 ChatGPT 的开发者采用了监督学习(Supervised Learning)和强化学习(Reinforcement Learning)算法去微调(fine-tune)ChatGPT 模型;其中,开发者采用了具有人类反馈的 强化学习算法(Reinforcement Learning from Human Feedback,RLHF),最小化了模型 所输出回答和真实情况的偏差度。

从技术的起源来看,ChatGPT(全称:Chat Generative Pre-Trained transformer), 采用了生成式的预训练的“Transformer”模型,而 Transformer 模型于 2017 年由谷歌 的研究人员在论文《Attention is all you need》中发布,这个模型促成了自然语言学习 (NLP)领域中 GPT 和 BERT 这 2 大模型的发展。这些年,在自然语言学习(NLP)领域, Transformer 模型逐步替代 RNN(循环神经网络)和 CNN(卷积神经网络);比如,相比于 RNN 模型,Transformer 模型引入了自我注意力(Self-attention)机制,结合算法优化,可 以实现并行运算,大量节约训练时间。

ChatGPT 的回答包括不限于以下几个方面

1、直接回答问题;

2、做文字的摘要;

3、写代码和查代码错误;

4、语言翻译;

5、撰写演讲稿和故事等。

比如,一个经典的使 用案例就是用户可以在和 ChatGPT 模型的对话框中,复制一段程序代码并向 ChatGPT 提问如何修改以下这段代码以确保这段代码可以正常工作,然后 ChatGPT 会进行回应, 将指出代码的出现的问题所在。

免责声明:以上内容归原撰写/发布机构所有,如涉侵权,请联系删除 ;资料为推荐阅读,仅供参考学习,如对内容存疑,请与原撰写/发布机构联系

关注公众号【人工智能学派】获取ChatGPT账号和教程


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1