当前位置:首页|资讯|OpenAI|斯坦福|编程|LLaMA|大语言模型

OpenAI员工介绍大模型的PPT

作者:人工智能大讲堂发布时间:2024-03-08


Andrej Karpathy,斯坦福大学博士,师从李飞飞,共事过吴恩达,主修计算机视觉,前特斯拉AI主管,现就职于OpenAI,曾用500行C代码实现llama的推理程序。


OpenAI作为GPT系列大语言模型的缔造者,其员工对于大语言模型应该是最了解的。


关注微信公众号:人工智能大讲堂,后台回复llp获取ppt


个人博客:https://karpathy.ai/

Github:https://github.com/karpathy/llama2.c

视频:https://www.youtube.com/watch?v=zjkBMFhNj_g


大语言模型中的“大”指的是参数量,以llama2-70B,为例,有700亿个参数,每个参数用2个字节存储,需要占用内存140GB,7B和13B分别14G和26G。

大语言模型中的“语言”指的是自然语言,包括文本分类,文本生成等。

大语言模型中的“模型”指的是Transformer,Transformer的核心是注意力机制。

经典的Tranformer由Encoder和Decoder组成,Encoder和Decoder是由多个transformer block堆叠而成的,每个transformer block由注意力(交叉注意力),前馈神经网络组成,其transformer block越多模型越复杂,参数量越大,推理能力越强。

有的LLM只包含了Encoder,例如Bert,有的则只包含Decoder,如GPT,有的则是Encoder-Decoder架构,例如T5。

Encoder架构,在计算每个词的注意力时

  • Llama2-7B:32层

  • Llama2-13B:40层

  • Llama2-70B:80层


模型复杂度和训练数据量要匹配,利用互联网上海量的数据和超强算力,大模型通过自监督方式进行预训练。

预训练模型虽然理解自然语言,也富有知识,但还不能完全适应下游任务,需要通过有标签数据和人类反馈进行微调,使其与人类指令对齐。

微调也有很多方式,例如,全量参数更新,也就是通过有标签数据,通过反向传播算法所有参数都参与更新;还有部分参数更新,例如,LORA,最后就是提示微调,模型参数不变,旨在生成高质量的提示。



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1