体系-AI人工智能算法工程师(视频+代码+电子书)

作者：Q一个姑娘发布时间：2024-05-18

1）ChatGPT的技能背景

<“霞栽ke”>://kuxueit.cn/9440/

ChatGPT现在未释出论文文献，仅释出了介绍博文和试用API。从博文中供给的技能点和示目的来看，它与今年头发布的InstructGPT 中心思维一起。其要害才干来自三个方面：强壮的基座大模型才干（InstructGPT），高质量的实在数据（干净且丰厚），强化学习（PPO算法）。以上ChatGPT成功的三个要素，详细将在文中第2部分详细展开。

2）ChatGPT的首要特点

让用户印象最深刻的是它有强壮的言语理解和生成体系。其对话才干、文本生成才干、对不同言语表述的理解均很出色。它以对话为载体，能够答复多种多样的日常问题，关于多轮对话前史的记忆才干和篇幅增强。其次，与GPT3等大模型比较，ChatGPT答复更全面，能够多视点全方位进行答复和论述，相较以往的大模型，知识被“发掘”得更充沛。它能降低了人类学习本钱和节省时刻本钱，能够满意人类大部分日常需求，比方快速为人类改写确定方针的文字、大篇幅续写和生成小说、快速定位代码的bug等。

值得一提的事，它具有安全机制和去除成见才干。下图这类问题在曾经的大模型中经常呈现，可是ChatGPT在这两点上添加了过滤处理机制。针对不适当的发问和恳求，它能够做出回绝和“油滑”的回复。例如关于违法行为的发问：

组练习数据对。之后运用pairwise loss来练习奖赏模型，能够猜测出标示者更喜欢哪个输出。"从比较中"学习能够给出相对准确的奖赏值。

这一步使得ChatGPT从命令驱动转向了目的驱动。关于这一点，李宏毅教师的原话称，“它会不断引导GPT说人类要他说的”。别的，练习数据不需过多，维持在万量级即可。因为它不需求穷尽所有的问题，只需告诉模型人类的喜爱，强化模型目的驱动的才干就行。

第三步，运用PPO强化学习战略来微调第一阶段的模型。这儿的中心思维是随机抽取新的Prompt，用第二阶段的Reward Model给发生的答复打分。这个分数即答复的全体reward，进而将此reward回传，由此发生的战略梯度能够更新PPO模型参数。整个进程迭代数次直到模型收敛。

强化学习算法能够简略理解为经过调整模型参数，使模型得到最大的奖赏（reward），最大奖赏意味着此时的回复最符合人工的挑选取向。而关于PPO，咱们知道它是2017年OpenAI提出的一种新式的强化学习战略优化的算法即可。它提出了新的方针函数，能够在多个练习进程完成小批量的更新，其完成简略、易于理解、功用安稳、能一起处理离散/接连动作空间问题、利于大规模练习。

以上三个进程即ChatGPT的练习进程，合称为文献中说到的RLHF技能。

2）ChatGPT为何成功？

为何三段式的练习方法就能够让ChatGPT如此强壮？其实，以上的练习进程蕴含了上文咱们说到的要害点，而这些要害点正是ChatGPT成功的原因：

强壮的基座模型才干（InstructGPT）
大参数言语模型（GPT3.5）
高质量的实在数据（精标的多轮对话数据和比较排序数据）
功用安稳的强化学习算法（PPO算法）

咱们需求注意的是，chatGPT的成功，是在前期大量作业根底上完成的，非随便发生的“惊雷”。下面咱们将针对性论述：

InstructGPT

ChatGPT是InstructGPT的兄弟模型(sibling model)，后者经过练习以遵循Prompt中的指令，从而供给详细的响应。InstructGPT是OpenAI在今年3月在文献 Training language models to follow instructions with human feedback 中提出的作业。其全体流程和以上的ChatGPT流程基本相同，可是在数据收集、基座模型（GPT3 vs GPT 3.5）以及第三步初始化PPO模型时略有不同。

此篇能够视为RLHF 1.0的收官之作。一方面，从官网来看，这篇文章之后暂时没有发布RLHF的新研讨，另一方面这篇文章也佐证了Instruction Tuning的有效性。

InstuctGPT的作业与ChatGPT类似：给定Instruction且需求人工写答复。首要作业人员练习了一个InstructGPT的早期版本，运用彻底人工标示的数据，分3类：Instruction+Answer、Instruction+多个examples 和用户在运用API进程中提出的需求。从第二类数据的标示，估测ChatGPT可能用检索来供给多个In Context Learning的示例，供人工标示。剩余进程与以上ChatGPT相同。

尤其需求注重但往往简略被忽视的是，OpenAI关于数据质量和数据泛化性的把控。这也是OpenAI的一大优势：寻觅高质量标示者——寻觅在辨认和回应灵敏提示的才干筛选测验中，表现杰出的labeler；运用集外标示者确保泛化性——即用未阅历以上1）进程的更广大集体的标示者对练习数据进行验证，确保练习数据与更广泛集体的偏好一起。

相关资讯

体系-AI人工智能算法工程师(视频+代码+电子书)

1）ChatGPT的技能背景

推荐体验

相关资讯

体系-AI人工智能算法工程师(视频+代码+电子书)

慕ke体系-AI人工智能算法工程师

AI人工智能算法工程师体系课（31周）

AI人工智能算法工程师

AI人工智能算法工程师(完结）

近期资讯

智界R7车主调研报告出炉：“华为”成金字招牌

卢伟冰谈董明珠炮轰小米空调：企业应与时俱进

Android图形框架之SurfaceComposerClient 提交事务过程

欧美怕吗！我国自研600公斤发动机点火：无人机打击更牛

OpenHarmony UI动画-recyclerview_animators

荣耀股改已完成：将适时启动IPO流程

男女款齐全：红妮磨绒保暖内衣套装49元大促（日常109元）

小米汽车正式亮相一周年：交付量破13万提前完成全年目标

怕冷的人VS抗冻的人：哪个更健康

日本制造信仰崩塌！多家百年日企又承认造假就是故意的

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响