当前位置:首页|资讯|OpenAI|GPT-4|马斯克

训练一次4.5亿元,OpenAI被大泄密!架构、数据集、成本全都在此,敢来复制吗

作者:头部科技发布时间:2023-07-12

原标题:训练一次4.5亿元,OpenAI被大泄密!架构、数据集、成本全都在此,敢来复制吗

文丨Congerry

终极揭秘!

GPT-4离正式发布已经过去四个多月,外界对于GPT-4模型架构、训练成本等信息一直非常好奇,奈何OpenAI嘴太严,丝毫不露风声,以至于马斯克多次斥责OpenAI不open。

然而,世上没有不透风的墙。昨日,半导体分析机构SemiAnalysis 发布了一篇题为《GPT-4 Architecture, Infrastructure, Training Dataset, Costs,Vision, MoE》的付费订阅文章,直接把 GPT-4 扒了个底掉。

该文章谈到了GPT-4 的各个方面,包括模型架构、训练和推理基础设施、参数规模、数据集构成、并行策略、视觉编码器、工程权衡、技术创新,以及推理瓶颈的解决方法。

并且,SemiAnalysis 直言:OpenAI 保持 GPT-4 架构的封闭性并不是因为对人类存在一些生存风险,而是因为他们构建的东西是可复制的。

比 GPT-3 大 10 倍,GPT-4 的1.8万亿巨量参数

GPT-4的参数是多少一直是个谜。

网传GPT-4参数

这一次,SemiAnalysis 在文章中爆出了 GPT-4 的参数规模和架构。

GPT-4 是一个基于 Transformer 的自回归模型,有 120 层,每层约 150 亿个参数,总共约 1.8 万亿个参数,是 GPT-3 的 10 倍多。

为了减少训练成本和提高效率,OpenAI 采用了专家混合 (MoE) 模型,把模型分成 16 个专家,每个专家约 111B 个 MLP 参数。每次前向传递只用两个专家。

此外,大约有550亿个共享参数用于注意力机制。

这样,推理时每次前向传递(生成1个标记)只需约 280B 参数和约 560 TFLOP 的计算,而不是全部的 1.8 万亿参数和约 3,700 TFLOP。

文章还介绍了 GPT-4 的训练数据集的组成和规模。

GPT-4 使用了约 13万亿个标记,包括公开的 CommonCrawl 和 RefinedWeb 数据集,以及私有的 Twitter、Reddit、YouTube、LibGen、Sci-Hub、GitHub 等数据集。OpenAI 还使用了 ScaleAI 内部提供的数百万行指令微调数据。

GPT-4 在文本数据上进行了两个 epoch 的预训练,在代码数据上进行了四个 epoch 的预训练。

在预训练阶段,GPT-4 使用了 8k 的上下文长度(seqlen),而 32k 序列长度版本的 GPT-4 是在预训练后对 8k 版本进行微调而得到的。

OpenAI 在集群上逐渐增加了批次大小,最后达到了 6000 万个。由于不是每个专家模型都能看到所有 token,因此这仅仅是每个专家模型处理 750 万个 token 的 batch size。

文章还揭示OpenAI为了在所有 A100 GPU 上进行并行计算,采用了 8 路张量并行,因为这是 NVLink (英伟达开发并推出的一种总线及其通信协议)的极限。

除此之外,OpenAI还采用了 15 路流水线并行。这可能会增加数据通信和计算时间的延迟。但是,考虑到 KV 缓存和成本的影响,如果 OpenAI 主要使用 40GB 的 A100 GPU,这种设计也有其合理性。

此外,OpenAI 可能还使用了 ZeRo Stage 1 和块级 FSDP 或混合共享数据并行,来减少内存占用。

揭开训练费用谜底,一次6300万美元

GPT-4 的训练和推理成本是非常昂贵的。

OpenAI OpenAI 在 GPT-4 的训练中(90 到 100 天)使用了大约 2.15e25 的 FLOPS和 25,000 个 A100 GPU,利用率(MFU)约为 32% 至 36%。

这种极低的利用率部分是由于大量的故障导致需要重新启动检查点。由于训练过程中还有其他的延迟和成本,如全局归约和网络连接。

文章估算,如果 OpenAI 在云端每小时支付 1 美元的 A100 GPU 费用,那么 GPT-4 的训练成本约为 6300 万美元。

这还不包括其他的实验、失败的运行和数据收集等成本,实际成本可能更高。

不过,这些成本可能会随着新一代的 H100 GPU 的出现而降低。如今,如果使用约 8192 个 H100 GPU 进行预训练,用时将降到 55 天左右,成本为 2150 万美元,每个 H100 GPU 的计费标准为每小时 2 美元。

在推理成本上,文章比较了 GPT-4 和 Davinci 模型。与拥有1750亿参数的Davinchi模型相比,GPT-4的成本是其3倍,虽然它的前馈参数只多了 1.6 倍。

文章分析,这是因为 GPT-4 需要更大的集群,而且利用率更低。

文章估算,GPT-4 在 128 个 A100 GPU 上的推理成本是每 1,000 个 token 0.0049 美元,而在 128 个 H100 GPU 上是 0.0021 美元。这是假设有高利用率和高批次大小的情况下。

文章提到,OpenAI 的利用率有时很低。作者猜测,OpenAI 可能会在低峰时段关闭集群,重新配置节点,恢复训练小模型,或者尝试新技术,来降低推理成本。

否则,OpenAI 的利用率会更低,成本也会更高。

此外该文章介绍了 GPT-4 的多个方面,包括:

  • 专家混合模型:GPT-4 使用了 16 个专家模型,每次前向传递只用两个。这有利于降低训练成本和提高效率,但也有多方面的权衡,如推理难度、泛化能力和收敛速度。
  • 多查询注意力:GPT-4 使用了多查询注意力(MQA),减少了注意力头的数量,并降低了 KV 缓存的内存占用。但是,GPT-4 仍然无法在 40GB 的 A100 GPU 上运行 32k 的序列长度,而且受到了最大批次大小的限制。
  • 连续批处理:GPT-4 实现了可变批次大小和连续批处理。这是为了允许一定程度的最大延迟,并优化推理成本。
  • 视觉多模态:GPT-4 增加了一个视觉编码器,与文本编码器有交叉注意力。这使得 GPT-4 能够处理多模态数据,并实现自主智能体的功能。GPT-4 在文本预训练之后,又进行了视觉微调。
  • 推测式解码:GPT-4 可能使用了推测式解码技术,用一个小模型提前解码多个 token,并输入到一个大模型中。如果大模型同意小模型的预测,就可以一次解码多个 token;如果不同意,就丢弃该批次并继续使用大模型。

值得一提的是,在视觉模型上,OpenAI原本希望从头开始训练,但因其不够成熟,无奈从文本训练模型进行微调。 而下一代模型GPT-5,将从头开始进行视觉训练,并且也能自己生成图像,甚至生成音频。

文章作者表示,未来大模型架构肯定会进一步发展,超越当前基于文本的稠密模型和MoE模型的简化形式。

当GPT-4被扒光之后,文章作者预计 Google、Meta、Anthropic、Inflection、Character、腾讯、字节跳动、百度等在短期内都将拥有与 GPT-4 一样强大的模型。

如果您有什么想说的,欢迎屏幕前你们在评论区留言讨论!我们将为点赞、评论、关注的同学们送上红包🧧不限量哟~


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1