原创 | 文BFT机器人
首先最核心区别在于参数量,例如 GPT-3 参数量达到了 1,750 亿个,是传统深度学习小模型参数量的至少一万倍以上。通过模型的扩大,可以带来提升包括:
GPT-2 等大模型舍弃了小模型中常见的调参 Fine-Tuning 过程,转向容量更大、无监督训练。
在自然语言理解 NLP 中,常见任务包括翻译、问答、文本填空等,常见小模型需要对不同的任务使用不同模型分别训练解决,而 GPT-3 等大规模预训练模型不再规定任务,而是对以上不同任务都有较好效果;可以理解为,一个饱读诗书的人,应该会写作、对话、阅读理解等多种技能,而不需要对单独技能训练;
传统的模型训练方式是反向传播算法,先对网络中的参数进行随机初始化(预训练大模型中不是随机初始化的),再利用随机梯度下降等优化算法不断优化模型参数,这种方式下对数据需求量较大。GPT-3 先使用海量数据预训练大模型,得到一套模型参数,然后用这套参数对模型进行初始化,再进行训练。大幅降低后续对数据量的需求。
小模型时代,商用模型开发会综合考虑调参等研发投入量和带来的商业价值,模型开发出来后能否复用以摊薄研发成本,同时对于部分训练样本量较少的场景,没有很好解决方法。
大模型可以在长尾场景应用落地,降低训练成本、减少数据要求。基于大规模预训练思路,一方面大模型可以应对多个泛化任务,大模型+细分场景微调,更适合长尾落地;另一方面,对于小样本(few shot)训练,大模型也有较好提升。
GPT/Bert 等大模型都在自然语言领域应用。而 Transformer 是目前 NLP 领域效果较好的深度学习模型,因此 GPT/Bert 等都使用了 Transformer。
此前 NLP 模型问题是:例如 RNN、LSTM,基本做法是把一段话拆分成多个单元,然后按前后顺序依次输入,输入的 LSTM 或 RNN 模块可以根据训练中句子的长度进行调整,较短的句子可以通过占位符进行补齐。也就是说当输入第 n 个词的时候,机器仅有前 n-1个词的信息。即实际训练无法充分发挥这些输入之间的关系而导致模型训练结果效果极差。即使尝试用 CNN 解决这个问题,但需要叠加很多层,才能捕捉长远的信息。
Transformer 引入了 Self-Attention 自注意力机制:让机器注意到整个输入中不同部分之间的相关性。Transformer 最大的特点是,可以让每个单元都可以捕捉到整句的信息,这也是 RNN/LSTM 等更早期 NLP 模型无法做到的一点。
实际上 2017 年 transformer 推出之后,2018 年就有学者将其应用于 CV 图像领域,但当时应用效果未发现相比传统 CNN 等算法有较大提升。当时常见做法是将自注意力和CNN 一起使用,而原有结构基本不变,对于传统卷积神经网络仍有较高依赖。
Transformers 用在 CV 上的难点。对于一个 Transformer 的 encoder,输入元素是一个个的单词,输出是一些元素。Transformers 自注意力操作中,每个元素需要和每个元素互相进行两两互动,最后算得一个 Attention 自注意力图,通过加权平均,最后得到输出。由于单元间两两互动,因此复杂度是序列长度的平方,也就是 n^2,在自然语言处理中,一个句子的长度一般就是几百或上千,例如 BERT 为 512 序列长度。
而对于一个比较常见的 224 x 224 大小的图片,如果直接以每一个像素点为单位进行两两互动的话,那序列长度为 50176,大概为 BERT 序列长度的 100 倍,因此复杂度极高。
但在 2021 年后,随着 swin transformer、mae 等论文推出,transformer 在 CV和跨模态等应用增加。
例如 2021 年 google 将尝试将自注意力机制和 transformer 直接应用在图像领域。在不依赖 CNN 结构的情况下,如何尽可能地讲 NLP 领域的标配——Transformer 不做修改的迁移到 CV 领域,并取得了较好的效果。
例如 2022 年引入的 MAE 方法。masked autoencoders(MAE)方法是随机 mask(遮罩)掉一部分像素,能极大加速模型的训练速度并提升准确率。由于语言的信息密度更高,mask 部分文字可能使得语义完全不同;而图像的冗余度就很高,因此 mask 掉部分信息可以大大减少冗余。
因此,国内擅长 CV 的 AI 公司,在 2022 年前对于基于 transformer 的大模型关注投入较少,但是我们认为随着 VIT 等效果提升,应用类的 CV 公司也会开始关注并投入大模型。
2020 年的 GPT-3 仍有较多缺陷,其中无法商用的最大问题是输出结果有毒或不真实,OpenAI 2022 年 1 月正式公开了改良版 InstructGPT。比 GPT-3 小了 100 多倍,仅有 13亿个参数。OpenAI 使用了一种通过人类反馈来强化学习 (RLHF) 的现有技术。OpenAI根据用户和 API 的交互结果,对模型的多个输出进行了排名,然后再利用这些数据微调GPT-3,大幅减少了有毒结果的输出。
因此,我们现在看到的 ChatGPT 可以优化负面结果,比如提问“如何闯空门”,机器会回答“这并不合适”,同时连贯对话也更加流畅,达到了可以商用的效果。
同样的情况在 AIGC 图片生成领域也存在。2021 年 OPEN AI 就推出了图片生成工具包 DALL-E,但是此时图像像素仍然较低。2022 年后,OPEN AI 进一步引入 Diffusion 等方式,使得图片像素提升 4 倍以上,且同时模型真实度可以维持,并在此基础上推出全新工具包 DALL-E2。此时较高像素下生成的图片可以开始达到商用的效果。
传统 NLP 最大缺陷,即自然语言理解、缺乏逻辑等问题,在 GPT中仍未被解决。GPT等模型依赖于大规模离线收集的语料进行训练,但是对于在线提供的即时信息,往往并不能进行充分理解并且纳入自己的回复中。更进一步的,对于对话中提供的因果关系,ChatGPT 也往往缺乏很好的理解能力。
例如提问:韩梅梅喜欢画画,她的儿子也是。李华是韩梅梅唯一的儿子。所以李华喜欢画画吗?ChatGPT:不太清楚李华是否喜欢画画。
此外,GPT 会给出部分问题貌似合理但不正确或荒谬的答案,或者过度使用一些词句和特定表达,同时缺乏类似人类的举一反三的能力等。
首先,需要承认这一类大模型底层创新在美国开始,包括 2017 年 Google《Attention Is All You Need》首次提出了 NLP 模型 Transformer,OpenAI 的 GPT-3 等。中国在 2021年后加速追赶,尤其是在 CV 大模型和多模态融合。
据国内 OpenBMB 开源社区统计,目前,在全球超千亿参数的大模型中,中国企业或机构贡献了 1/3,美国贡献了 1/2,世界其他国家或组织贡献了剩下的 1/6。
此前国内大部分视觉类AI公司都以小模型路线为主,投入大模型研发较多的包括百度、华为等,优势可能会在多模态融合。
百度文心大模型:NLP+CV,基本实现跨模态和多下游应用。
应用场景涵盖:NLP 大模型、CV 大模型、跨模态大模型、生物计算大模型、行业大模型。API 包括了:1)ERNIE3.0 文本理解与创作:预置作文生成、文案创作、情感分析等任务提示,2)ERNIE-ViLG AI作画大模型,3)PLATO 大模型开放域对话服务。
华为盘古大模型:最大中文语言预训练模型。
2021 年 4 月华为发布千亿参数 40TB 训练数据的全球最大中文语言(NLP)预训练模型,30 亿参数的全球最大视觉(CV)预训练模型。将 P-tuning、priming 等最新技术融入到盘古的微调框架中,提升微调效果;在样本极少的情况下,盘古的少样本学习能力远超 GPT 系列和 BERT 系列;要得到相同的 F1结果,盘古所需的数据量仅为中文 GPT-3 的 1/9,实现了近 10 倍的生产效率提升。
Q8:怎样的公司有机会参与大模型底层技术研发?
我们认为大模型对存储、算力要求极高,且对于开发者对深度学习框架使用也有要求,普通机构难以复现。
据 NVIDIA 估算,如果要训练 GPT-3 ,即使单个机器的显存 / 内存能装得下,用 8张 V100 的显卡,训练时长预计要 36 年;即使用 512 张 V100 ,训练也需要将近 7 个月;如果拥有 1024 张 80GB A100, 那么完整训练 GPT-3 的时长可以缩减到 1 个月。
以微软与 OpenAI 合作建造 的 Azure A 工智能算力平台为例,该算力平台投资约 10亿美元,使用该超算中心训练一次超大模型 GPT-3 大约花费 1200 万美元。
同时解决分布式训练问题:上百台服务器之间的通信、拓扑、模型并行、流水并行等问题,模型训练是显存峰值问题。
因此 GPT-3 发布一年后,只有 NVIDIA 、微软等大企业可以复现 。
更多精彩内容请关注公众号:BFT机器人
本文为原创文章,版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。