当前位置:首页|资讯|微软|OpenAI|深度学习|自动驾驶

【科普】揭秘GPT训练细节——微软build 2023演讲by Andrej Karpathy

作者:__晚风___发布时间:2023-06-24

(本文为原创,关于视频内容未参考国内平台文章)

2023年5月30日,微软build 2023开发者大会上,OpenAI的Andrej Karpathy做了名为State of GPT的演讲。有了解深度学习和计算机视觉的小伙伴应该很熟悉这位了,我记得2017年学李飞飞cs231n课的时候他还是作为助教,有好几堂课是他来讲的。2015—2017年曾在openAI工作,之后离职去特斯拉做AI部门主管搞自动驾驶,今年又回到了openAI。(不知道是不是因为自动驾驶炒不起来了)

↑视频传送门,我是在油管上看的,这是b站的搬运。

为啥我这个懒人要专门写一篇文章介绍这个演讲内容呢,因为实在是太精彩了,把nlp的近年发展和gpt模型讲的既深刻又明确,只能说不愧是大神,理解领先普通人几个版本。如果你有留意过,真正的大神都是能把深刻的问题讲的很明白的,直达重点。反过来说,如果某个人挂着一堆title讲的却是云里雾里,甚至刻意把事情复杂化,基本上非蠢即坏,这些是可以看出来的。尤其是某些学科。

扯远了,回到正题,说说演讲的内容。主题是State of GPT,演讲分为两个部分。第一部分讲了chatgpt的训练细节,准确来说是gpt3.5的训练细节,gpt4仍然是保密的,毕竟看家法宝可不能随意外传~

第二部分讲了chatgpt以及其他llm的一些使用技巧,并从原理出发阐述了为什么这样做可以work。

想要从头开始训练一个chatgpt模型,有四个主要阶段:预训练、有监督微调、奖励建模、强化学习。

预训练步骤是用transformer结构在海量互联网语料库里学习世界上所有词语的通用表示形式,这也是gpt的由来——生成式预训练transformer(generative pretrained transformer)。类似于word2vec的预训练过程,给每个词生成一个向量表示,也就是我们常说的embedding。在2018年之前,这个训练过程通常是由RNN和LSTM来做的,后来人们发现transformer结构以及其注意力机制能够很好的解决RNN和LSTM记忆力低下的问题,甚至能够利用到整篇文章的信息,当然代价是更高的计算量。于是从这时开始,几乎所有state of the art的模型都用上了transformer结构,也让普通人彻底无法进入AI这个领域。

在提出transformer结构的原始论文《Attention is all you need》中,transformer的完整结构是这样的↑,看起来很吓人,我一开始了解这个模型的时候也完全摸不到头脑。大神就给我们解释了,实际上gpt完全没有用左边的encoder部分和右边decoder的中间部分,只用了这一小部分↓,现在是不是看起来简单多了?

只用到这一部分是因为transformer的原始论文是一篇关于机器翻译的论文,需要用encoder来把输入的语言编码成一个初始向量表示。而gpt本质上是“生成”,也就是给定一篇文章,为其续写,这样的话就只需要decoder这一个输入就足够了。transformer的原理详解如果有时间我会另外写一篇文章来介绍,涉及到一些深度学习和自然语言处理的基础知识,这里再放进来就太长了。同样来自于这位大神的讲课内容。

Let's build GPT: from scratch, in code, spelled out.

https://www.youtube.com/watch?v=kCc8FmEb1nY&t=5325s&ab_channel=AndrejKarpathy


关于transformer衍生模型在自然语言处理领域的发展,可以看到主要分为3个branch,一个是以BERT为代表的encoder-only模型,以及GPT为代表的decoder-only模型,以及T5为代表的encoder-decoder模型,这三个branch基本上代表了3种不同的任务。bert主要用于文本分类,gpt用于文本生成,t5用于机器翻译。



(先放着,明天接着写)


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1