当前位置:首页|资讯|AIGC|ChatGPT

AIGC专题:ChatGPT原理-挖掘ChatGPT底层原理, 理解实现方法(附下载)

作者:勇敢的鹏子发布时间:2024-03-23

原标题:AIGC专题:ChatGPT原理-挖掘ChatGPT底层原理, 理解实现方法(附下载)

今天分享的是AIGC系列深度研究报告:《AIGC专题:ChatGPT原理-挖掘ChatGPT底层原理, 理解实现方法》。

(报告出品方:黑马程序员)

报告共计:78

海量/完整电子版/报告下载方式:公众号《人工智能学派》

神经网络语言模型

模型的输入:w(t-n+1),…,w(t-2),w(t-1)就是前n-1个词。现在需要根据这已知的n-1个词预测下一个词w(t)。 C(w)表示w所对应的词向量。

第一层:将C[w(t-n+1)],…,C[w(t-2)],C[w(t-1)] n-1 个向量首尾拼接起来形成一个(n-1)*m大小的向量,记作x。

第二层: 一个全连接层, 通过全连接层后再使用tanh激活函数进行处理。

第三层:一个全连接层,输出共有V个神经元 (V代表语料的词汇)。每个神经元代表一个概率,最大概率值, 就是我们需要预测的结果。

ChatGPT本质

人类的反馈纳入训练过程,更好地使模型输出与用户意图保持一致。

InstructGPT是一个经过微调的GPT-3,实现更好的输出。

GPT-3(1750亿参数) GPT-3实现将网页转化为相应代码、模仿人 类叙事、创作定制诗歌、生成游戏剧本。

GPT-2(15亿参数) 除了理解能力外,GPT-2在生成方面表现 非常好:阅读,摘要,聊天,编故事。

GPT-1(1.17亿参数) GPT-1有一定泛化能力,能够用于和监督任务无关的 NLP 任务中 。

ChatGPT本质?

ChatGPT本质是一种基于GPT-3的聊天机器人模型。

ChatGPT发展过程?

GPT-1,GPT-2,GPT-3, ChatGPT。

GPT-1,GPT-2,GPT-3参数量分别是多少?

上升背后的意思如何?参数量上升背后是模型愈加复杂,模型表现变得更好。

GPT-1模型总结

GPT-1证明了transformer对学习词向量的强大能力。

GPT-1在未经微调的任务上虽然也有一定效果, 但是其泛 化能力远远低于经过微调的有监督任务。

说明了GPT-1只是一个简单的领域专家, 而非通用的语言学家。

在GPT-1得到的词向量基础上进行下游任务的学习, 能够让下游任务取得更好的泛化能力。

对于下游任务的训练, GPT-1往往只需要简单的微调便能取得非常好的效果。

总结

GPT-1使用数据集类型?

GPT-1使用了BooksCorpus数据集, 这个数据集包含 7000 本没有发布的书籍。

GPT-1模型训练过程分为哪两个阶段呢?

第一阶段:无监督预训练;

第二阶段:下游监督任务fine-tunning。

GPT-2模型架构

在模型方面相对于GPT-1来说GPT-2做了微小的改动:

LN层被放置在Self-Attention层和Feed Forward层前,而不是像原来那样后置。

在最后一层Tansfomer Block后增加了LN层。

GPT-2模型训练核心思想

GPT-2模型的学习目标: 使用无监督的预训练模型做有监督的任务。

Ø GPT-2的训练去掉了Fine-tuning只包括无监督 的预训练过程, 和GPT-1第一阶段训练一样, 也 属于一个单向语言模型。

GPT-2模型目的:下游任务不要进行微调过程, 直接通过预训练模型得到结果。这也称为 “Zero-Shot思想”。

GPT-2模型训练核心思想

语言模型其实也是在给序列的条件概率建模: p(sn|s1,s2,...,sn−1)。

通常我们做微调任务, 其实都是在估计p(output|input), 但如果要做通用模型, 它需要对p(output|input, task)建模. 这种模型的一条训练样本可以表示为:(translate to french, English text, french text)。

语言模型=无监督多任务学习。相比于有监督的多任务学习, 语言模型只是不 需要显示地定义哪些字段是要预测的输出, eg: 比如我在训练语言模型时, 有一句话“The translation of word Machine Learning in chinese is 机器学习”, 那在训练完这句话时, 语言模型就自然地将翻译任务和任务的输入输出都学到了.

GPT-2模型总结

GPT-2验证了通过海量数据和大量参数,训练出来的词向量模型可以迁移到其它类别任务中而不需要额外的训练。

GPT-2的无监督学习的能力还有很大的提升空间, 甚至在有些任务上的表现不比随机的好。尽管在有些zero-shot 的任务上的表现不错, 但是我们仍不清楚GPT-2的这种策略究竟能做成什么样子。GPT-2表明随着模型容量和数据量的增大, 其潜能还有进一步开发的空间。

报告共计:78页

海量/完整电子版/报告下载方式:公众号《人工智能学派》


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1