训练一次4.5亿元，OpenAI被大泄密！架构、数据集、成本全都在此，敢来复制吗

作者：头部科技发布时间：2023-07-12

文丨Congerry

终极揭秘！

GPT-4离正式发布已经过去四个多月，外界对于GPT-4模型架构、训练成本等信息一直非常好奇，奈何OpenAI嘴太严，丝毫不露风声，以至于马斯克多次斥责OpenAI不open。

然而，世上没有不透风的墙。昨日，半导体分析机构SemiAnalysis 发布了一篇题为《GPT-4 Architecture， Infrastructure， Training Dataset， Costs，Vision， MoE》的付费订阅文章，直接把 GPT-4 扒了个底掉。

该文章谈到了GPT-4 的各个方面，包括模型架构、训练和推理基础设施、参数规模、数据集构成、并行策略、视觉编码器、工程权衡、技术创新，以及推理瓶颈的解决方法。

并且，SemiAnalysis 直言：OpenAI 保持 GPT-4 架构的封闭性并不是因为对人类存在一些生存风险，而是因为他们构建的东西是可复制的。

比 GPT-3 大 10 倍，GPT-4 的1.8万亿巨量参数

GPT-4的参数是多少一直是个谜。

网传GPT-4参数

这一次，SemiAnalysis 在文章中爆出了 GPT-4 的参数规模和架构。

GPT-4 是一个基于 Transformer 的自回归模型，有 120 层，每层约 150 亿个参数，总共约 1.8 万亿个参数，是 GPT-3 的 10 倍多。

为了减少训练成本和提高效率，OpenAI 采用了专家混合 (MoE) 模型，把模型分成 16 个专家，每个专家约 111B 个 MLP 参数。每次前向传递只用两个专家。

此外，大约有550亿个共享参数用于注意力机制。

这样，推理时每次前向传递（生成1个标记）只需约 280B 参数和约 560 TFLOP 的计算，而不是全部的 1.8 万亿参数和约 3,700 TFLOP。

文章还介绍了 GPT-4 的训练数据集的组成和规模。

GPT-4 使用了约 13万亿个标记，包括公开的 CommonCrawl 和 RefinedWeb 数据集，以及私有的 Twitter、Reddit、YouTube、LibGen、Sci-Hub、GitHub 等数据集。OpenAI 还使用了 ScaleAI 内部提供的数百万行指令微调数据。

GPT-4 在文本数据上进行了两个 epoch 的预训练，在代码数据上进行了四个 epoch 的预训练。

在预训练阶段，GPT-4 使用了 8k 的上下文长度（seqlen），而 32k 序列长度版本的 GPT-4 是在预训练后对 8k 版本进行微调而得到的。

OpenAI 在集群上逐渐增加了批次大小，最后达到了 6000 万个。由于不是每个专家模型都能看到所有 token，因此这仅仅是每个专家模型处理 750 万个 token 的 batch size。

文章还揭示OpenAI为了在所有 A100 GPU 上进行并行计算，采用了 8 路张量并行，因为这是 NVLink （英伟达开发并推出的一种总线及其通信协议）的极限。

除此之外，OpenAI还采用了 15 路流水线并行。这可能会增加数据通信和计算时间的延迟。但是，考虑到 KV 缓存和成本的影响，如果 OpenAI 主要使用 40GB 的 A100 GPU，这种设计也有其合理性。

此外，OpenAI 可能还使用了 ZeRo Stage 1 和块级 FSDP 或混合共享数据并行，来减少内存占用。

揭开训练费用谜底，一次6300万美元

GPT-4 的训练和推理成本是非常昂贵的。

OpenAI OpenAI 在 GPT-4 的训练中（90 到 100 天）使用了大约 2.15e25 的 FLOPS和 25,000 个 A100 GPU，利用率（MFU）约为 32% 至 36%。

这种极低的利用率部分是由于大量的故障导致需要重新启动检查点。由于训练过程中还有其他的延迟和成本，如全局归约和网络连接。

文章估算，如果 OpenAI 在云端每小时支付 1 美元的 A100 GPU 费用，那么 GPT-4 的训练成本约为 6300 万美元。

这还不包括其他的实验、失败的运行和数据收集等成本，实际成本可能更高。

不过，这些成本可能会随着新一代的 H100 GPU 的出现而降低。如今，如果使用约 8192 个 H100 GPU 进行预训练，用时将降到 55 天左右，成本为 2150 万美元，每个 H100 GPU 的计费标准为每小时 2 美元。

在推理成本上，文章比较了 GPT-4 和 Davinci 模型。与拥有1750亿参数的Davinchi模型相比，GPT-4的成本是其3倍，虽然它的前馈参数只多了 1.6 倍。

文章分析，这是因为 GPT-4 需要更大的集群，而且利用率更低。

文章估算，GPT-4 在 128 个 A100 GPU 上的推理成本是每 1,000 个 token 0.0049 美元，而在 128 个 H100 GPU 上是 0.0021 美元。这是假设有高利用率和高批次大小的情况下。

文章提到，OpenAI 的利用率有时很低。作者猜测，OpenAI 可能会在低峰时段关闭集群，重新配置节点，恢复训练小模型，或者尝试新技术，来降低推理成本。

否则，OpenAI 的利用率会更低，成本也会更高。

此外该文章介绍了 GPT-4 的多个方面，包括：

专家混合模型：GPT-4 使用了 16 个专家模型，每次前向传递只用两个。这有利于降低训练成本和提高效率，但也有多方面的权衡，如推理难度、泛化能力和收敛速度。
多查询注意力：GPT-4 使用了多查询注意力（MQA），减少了注意力头的数量，并降低了 KV 缓存的内存占用。但是，GPT-4 仍然无法在 40GB 的 A100 GPU 上运行 32k 的序列长度，而且受到了最大批次大小的限制。
连续批处理：GPT-4 实现了可变批次大小和连续批处理。这是为了允许一定程度的最大延迟，并优化推理成本。
视觉多模态：GPT-4 增加了一个视觉编码器，与文本编码器有交叉注意力。这使得 GPT-4 能够处理多模态数据，并实现自主智能体的功能。GPT-4 在文本预训练之后，又进行了视觉微调。
推测式解码：GPT-4 可能使用了推测式解码技术，用一个小模型提前解码多个 token，并输入到一个大模型中。如果大模型同意小模型的预测，就可以一次解码多个 token；如果不同意，就丢弃该批次并继续使用大模型。

值得一提的是，在视觉模型上，OpenAI原本希望从头开始训练，但因其不够成熟，无奈从文本训练模型进行微调。而下一代模型GPT-5，将从头开始进行视觉训练，并且也能自己生成图像，甚至生成音频。

文章作者表示，未来大模型架构肯定会进一步发展，超越当前基于文本的稠密模型和MoE模型的简化形式。

当GPT-4被扒光之后，文章作者预计 Google、Meta、Anthropic、Inflection、Character、腾讯、字节跳动、百度等在短期内都将拥有与 GPT-4 一样强大的模型。

如果您有什么想说的，欢迎屏幕前你们在评论区留言讨论！我们将为点赞、评论、关注的同学们送上红包🧧不限量哟~