文丨Congerry
终极揭秘!
GPT-4离正式发布已经过去四个多月,外界对于GPT-4模型架构、训练成本等信息一直非常好奇,奈何OpenAI嘴太严,丝毫不露风声,以至于马斯克多次斥责OpenAI不open。
然而,世上没有不透风的墙。昨日,半导体分析机构SemiAnalysis 发布了一篇题为《GPT-4 Architecture, Infrastructure, Training Dataset, Costs,Vision, MoE》的付费订阅文章,直接把 GPT-4 扒了个底掉。
该文章谈到了GPT-4 的各个方面,包括模型架构、训练和推理基础设施、参数规模、数据集构成、并行策略、视觉编码器、工程权衡、技术创新,以及推理瓶颈的解决方法。
并且,SemiAnalysis 直言:OpenAI 保持 GPT-4 架构的封闭性并不是因为对人类存在一些生存风险,而是因为他们构建的东西是可复制的。
比 GPT-3 大 10 倍,GPT-4 的1.8万亿巨量参数
GPT-4的参数是多少一直是个谜。
网传GPT-4参数
这一次,SemiAnalysis 在文章中爆出了 GPT-4 的参数规模和架构。
GPT-4 是一个基于 Transformer 的自回归模型,有 120 层,每层约 150 亿个参数,总共约 1.8 万亿个参数,是 GPT-3 的 10 倍多。
为了减少训练成本和提高效率,OpenAI 采用了专家混合 (MoE) 模型,把模型分成 16 个专家,每个专家约 111B 个 MLP 参数。每次前向传递只用两个专家。
此外,大约有550亿个共享参数用于注意力机制。
这样,推理时每次前向传递(生成1个标记)只需约 280B 参数和约 560 TFLOP 的计算,而不是全部的 1.8 万亿参数和约 3,700 TFLOP。
文章还介绍了 GPT-4 的训练数据集的组成和规模。
GPT-4 使用了约 13万亿个标记,包括公开的 CommonCrawl 和 RefinedWeb 数据集,以及私有的 Twitter、Reddit、YouTube、LibGen、Sci-Hub、GitHub 等数据集。OpenAI 还使用了 ScaleAI 内部提供的数百万行指令微调数据。
GPT-4 在文本数据上进行了两个 epoch 的预训练,在代码数据上进行了四个 epoch 的预训练。
在预训练阶段,GPT-4 使用了 8k 的上下文长度(seqlen),而 32k 序列长度版本的 GPT-4 是在预训练后对 8k 版本进行微调而得到的。
OpenAI 在集群上逐渐增加了批次大小,最后达到了 6000 万个。由于不是每个专家模型都能看到所有 token,因此这仅仅是每个专家模型处理 750 万个 token 的 batch size。
文章还揭示OpenAI为了在所有 A100 GPU 上进行并行计算,采用了 8 路张量并行,因为这是 NVLink (英伟达开发并推出的一种总线及其通信协议)的极限。
除此之外,OpenAI还采用了 15 路流水线并行。这可能会增加数据通信和计算时间的延迟。但是,考虑到 KV 缓存和成本的影响,如果 OpenAI 主要使用 40GB 的 A100 GPU,这种设计也有其合理性。
此外,OpenAI 可能还使用了 ZeRo Stage 1 和块级 FSDP 或混合共享数据并行,来减少内存占用。
揭开训练费用谜底,一次6300万美元
GPT-4 的训练和推理成本是非常昂贵的。
OpenAI OpenAI 在 GPT-4 的训练中(90 到 100 天)使用了大约 2.15e25 的 FLOPS和 25,000 个 A100 GPU,利用率(MFU)约为 32% 至 36%。
这种极低的利用率部分是由于大量的故障导致需要重新启动检查点。由于训练过程中还有其他的延迟和成本,如全局归约和网络连接。
文章估算,如果 OpenAI 在云端每小时支付 1 美元的 A100 GPU 费用,那么 GPT-4 的训练成本约为 6300 万美元。
这还不包括其他的实验、失败的运行和数据收集等成本,实际成本可能更高。
不过,这些成本可能会随着新一代的 H100 GPU 的出现而降低。如今,如果使用约 8192 个 H100 GPU 进行预训练,用时将降到 55 天左右,成本为 2150 万美元,每个 H100 GPU 的计费标准为每小时 2 美元。
在推理成本上,文章比较了 GPT-4 和 Davinci 模型。与拥有1750亿参数的Davinchi模型相比,GPT-4的成本是其3倍,虽然它的前馈参数只多了 1.6 倍。
文章分析,这是因为 GPT-4 需要更大的集群,而且利用率更低。
文章估算,GPT-4 在 128 个 A100 GPU 上的推理成本是每 1,000 个 token 0.0049 美元,而在 128 个 H100 GPU 上是 0.0021 美元。这是假设有高利用率和高批次大小的情况下。
文章提到,OpenAI 的利用率有时很低。作者猜测,OpenAI 可能会在低峰时段关闭集群,重新配置节点,恢复训练小模型,或者尝试新技术,来降低推理成本。
否则,OpenAI 的利用率会更低,成本也会更高。
此外该文章介绍了 GPT-4 的多个方面,包括:
值得一提的是,在视觉模型上,OpenAI原本希望从头开始训练,但因其不够成熟,无奈从文本训练模型进行微调。 而下一代模型GPT-5,将从头开始进行视觉训练,并且也能自己生成图像,甚至生成音频。
文章作者表示,未来大模型架构肯定会进一步发展,超越当前基于文本的稠密模型和MoE模型的简化形式。
当GPT-4被扒光之后,文章作者预计 Google、Meta、Anthropic、Inflection、Character、腾讯、字节跳动、百度等在短期内都将拥有与 GPT-4 一样强大的模型。
如果您有什么想说的,欢迎屏幕前你们在评论区留言讨论!我们将为点赞、评论、关注的同学们送上红包🧧不限量哟~
IT之家 2024-12-21
三言科技 2024-12-20
腾讯科技 2024-12-21
三言科技 2024-12-21
IT之家 2024-12-21
IT之家 2024-12-21