“OpenAI并没有魔法,他们所构建的东西是可复制的。”
——先问大模型技术团队
就在今日,被人们吐槽“不够open”的OpenAI,被业内大神扒了个底儿掉!
大神此次公开的信息包括GPT-4的架构、训练和推理的基础设施、参数量、训练数据集、token数量、运维成本、以及使用的混合专家模型(Mixture of Experts,MoE)等非常具体的参数与细节。
在这些信息中,我们可以看到OpenAI在面对不同工程背后如何进行权衡,以及在巨型模型推理时,如何跨越其中最大的瓶颈。
而这些细节的公开,无疑是给了业界一个研究和学习OpenAI技术的机会。
01
是谁在揭开GPT的秘密?
那么,这些重磅的信息是从何而来的呢?
爆料的来源是SemiAnalysis的两位名叫Dylan Patel和Gerald Wong的撰稿人。他们在文章中详细介绍了这些关于GPT-4的具体信息。
值得一提的是,身为Semi Analysis首席分析师的Dylan Patel,并不是第一次引发业界轩然大波。他此前还曾经参与了谷歌内部文件的泄漏事件。那份文件中提到,“我们没有护城河,OpenAI也没有”,引发了业界对于大公司竞争和AI安全的热烈讨论。
Semi Analysis首席分析师Dylan Patel
这次的泄露事件得到了DeepMind的首席执行官Hassabis的确认,他在接受The Verge的采访时,确认了这份由谷歌工程师泄露的文件的真实性。
这也证明了Dylan Patel具有一些特殊的信息获取渠道,这使得我们有理由相信这次关于GPT-4的爆料同样具有相当的真实性。
总的来说,这次的信息给了我们一次深入了解OpenAI最新技术的机会。我们期待看到这些信息将如何影响AI领域的发展和变革。
02
GPT-4的模型参数达1.8万亿
GPT-4,OpenAI的最新大规模语言模型,显示出一系列引人注目的特性。首先,它的规模令人震惊,模型参数达到1.8万亿,分布在120层中,相比其前任GPT-3增长了十倍以上。
先前外界猜测的GPT-4参数量
在模型构建过程中,OpenAI采用了混合专家(MoE)模型以保持成本在合理范围内。GPT-4使用了16个专家模型,每个专家模型的MLP大约有1110亿个参数。
其路由算法简洁高效,能将每个标记路由到专家模型的决策依据,并不复杂,有大约550亿个共享参数用于注意力。值得注意的是,在执行每次向前传播推断时,GPT-4只使用大约2,800亿个参数,这相比纯密集模型的1.8万亿参数更为经济。
03
数据及训练方式
在数据方面,GPT-4的训练数据达到了13万亿个token,包括文本和代码数据,以及来自ScaleAI和OpenAI内部的大量微调数据。在预训练阶段,token设为8,000,之后在微调阶段将token增加到32,000。
训练过程中,OpenAI使用了批处理的方式。批处理大小在早期逐步增大,最后达到了6,000万,这对于GPU资源的利用极具效率。
04
并行处理技术与训练成本
为了在所有的A100 GPU上实现并行,GPT-4使用了8路张量并行和15路管线并行,这都是并行处理技术的极限。这种并行策略可能涉及了ZeRo阶段1和块级FSDP技术。
训练成本是评估模型效率的重要指标,OpenAI的GPT-4的训练FLOPS大约2.15e25。模型在大约25000个A100上运行了90到100天,使用率大约为32%到36% 。由于大量的失败需要从检查点重新开始,使用率将变得极低。
如果按照每个A100每小时1美元来计算,训练成本将是6300万美元左右。
05
规模与性能的难题
尽管GPT-4在规模和性能上取得了显著的突破,但其依然面临着一些挑战。
例如,专家模型在推理中非常难以处理,因为并非在每个token生成时都使用模型的每一部分。这意味着当其他部分被使用时,剩余部分可能处于休眠状态。当为用户提供服务时,这会严重影响利用率。
同时,由于更多的专家模型在许多任务上难以泛化,且更难以达到收敛,所以OpenAI选择了较少的专家模型。
因为GPT-4需要更大的集群,所以它的推理成本是其前代产品175B参数Davinchi的3倍,实际上使用效率更低。
06
GPT-4的视觉能力:
交叉注意力与微调
在视觉能力方面,GPT-4采用了与文本编码器分开的视觉编码器,具有交叉注意力。这种架构与Flamingo相似,增加了更多的参数,并进行了约2万亿个token的微调。
OpenAI希望从头开始训练视觉模型,但由于技术不够成熟,因此决定先从文本开始,降低风险。
总结来说,GPT-4在规模、性能和复杂性方面都做出了重大的突破,但同时也带来了更大的挑战和更高的成本。这无疑将开启人工智能发展的新篇章,我们有理由对此充满期待。
(全文编译请看今日清元宇宙二条)
07
“先问”点评
清博先问大模型技术团队表示,在这份报告前,黑客George Hotz就爆料过GPT-4是由8个MoE模型组成,这次相比之下更加具体详细,也更具有指导和复现意义。
这份报告也是给了我们中国企业打了一剂强心针,OpenAI并没有魔法,他们所构建的东西是可复制的。
在报告中最吸引我的内容是OpenAI在面临大模型推理时遇到的问题和作出的抉择。
众所周知,大模型在推理时,延迟和推理成本是非常重要的权衡。我们总会希望能在延迟较低、吞吐量足够的情况下,推理成本尽可能小,因此我们从这份报告中看到OpenAI的选择,启发我们团队后续的相关工作。
值得一提的是,其实万亿级别参数的MoE模型,GPT-4并不是第一个。谷歌在2021年发布的Switch Transformers,就是价值1.6万亿的MoE模型。所以OpenAI利用MoE的做法,也是意料之中的。
对于大模型来说,最大的开销不是训练,而是之后长期的服务开销:训练是一次性的,而服务对算力的要求是无穷无尽的。
模型serving的FLOPS要低于训练时的FLOPS,MoE就是一个很显然的选择,可以保证稀疏激活。
人类的大脑也有着类似的设计:功能分区,稀疏激活。我们人去解决一个问题,也只会利用相关的知识,而不是把大脑中所有的知识都用上。
尽管MoE是一个简单明显的选择,但还有很多工作值得我们去做,改进路由算法,降低通信和计算成本,提升训练的稳定性等等。
未来,这些工作也都将是我们先问大模型努力的方向。
参考信息:
1、https://mem.ai/p/weHErOim3P2FNmTEvlMX
2、https://www.semianalysis.com/p/gpt-4-architecture-infrastructure
作者:先问大模型 西瓜 排版:骆伟玲
图片源于Q仔互联网冲浪所得,若有侵权,后台联系,Q仔滑跪删除~