当前位置:首页|资讯|AI大模型

揭秘:Meta的AI大模型基础设施!

作者:ssdfans发布时间:2024-11-21

点击蓝字

关注我们

作为Meta对未来AI的重大投资,我们宣布了两个2.4万卡GPU集群。我们正在分享有关硬件、网络、存储、设计、性能和软件的详细信息,以帮助各种AI工作负载提取高吞吐量和可靠性。这种集群设计被用于Llama3的训练。

我们坚定地致力于开放计算和开源。在Grand TetonOpenRackPyTorch的基础上构建了这些集群,并继续推动整个行业的开放式创新。

这一宣布是我们基础设施路线图的一步。到2024年底,我们的目标是继续扩大基础设施建设,将包括作为产品组合部分350,000NVIDIA H100 GPU,具有相当于近600,000H100的计算能力。

引领 AI发展意味着引领硬件基础设施的投资。硬件基础设施在 AI未来扮演着重要的角色。今天,我们在Meta上分享两个版本的24,576 GPU数据中心规模集群的细节。这些集群支持我们当前和下一代AI模型,包括Llama 3Llama 2的继承者,公开发布的LLM,以及GenAI和其他领域的AI研究和开发。

Meta的大规模 AI集群

Meta的长期愿景是建立开放和负责任的AGIgeneral intelligence,以便每个人都可以广泛使用,并 从中受益。在我们努力实现AGI的同时,我们也在努力扩展集群,以实现这一目标。我们在AGI方面取得的进展创造了新产品,为我们的应用程序家族创造了新的AI功能,以及新的以 AI为中心的计算设备。

揭开面纱

我们新的 AI集群建立在RSC的成功和经验教训之上。我们专注于构建端到端的人工智能系统,主要强调研究人员和开发人员的经验和生产力。这些集群中的高性能网络结构的效率,一些关键的存储决策,结合每个集群中的24,576NVIDIA Tensor Core H100 GPU,允许两个集群版本支持比RSC支持更大更复杂的模型,并为GenAI产品开发和AI研究的进步铺平道路。

网络

Meta,我们每天处理数以万亿计的AI模型。大规模交付这些服务需要高度先进和灵活的基础设施。定制设计我们自己的硬件、软件和网络结构,使我们能够优化 AI研究人员的端到端体验,同时确保我们的数据中心高效运行。

考虑到这一点,我们基于带有Wedge400Minipack2 OCP机架交换机的Arista 7800构建了一个基于融合以太网(RoCE)网络结构解决方案的远程直接内存访问(RDMA)集群。另一个集群采用NVIDIA Quantum2 InfiniBand结构。这两种解决方案都将400Gbps的端点互连起来。有了这两个,我们能够评估这些不同类型的互连在大规模训练中的适用性和可扩展性,为我们提供更多的见解,这将有助于我们在未来如何设计和构建规模更大的集群。通过仔细设计网络、软件和模型架构,我们已经成功地将RoCEInfiniBand集群用于大型GenAI工作负载(包括在RoCE集群上正在进行的Llama 3培训),没有任何网络瓶颈。

计算

这两个集群都是使用Grand Teton构建的,这是我们内部设计的开放GPU硬件平台,我们已经为开放计算项目(OCP)做出了贡献。Grand Teton基于多代AI系统,将电源、控制、计算和结构接口集成到单个机箱中,以获得更好的整体性能、信号完整性和热性能。它以简化的设计提供了快速的可扩展 性和灵活性,使其能够快速部署到数据中心中,并且易于维护和扩展。结合其他内部创新,如我们的Open Rack电源和Rack构,Grand Teton允许我们以一种专门为Meta当前和未来应用程序构建的方式构建新的集群。

2015年的Big Sur平台开始,我们已经公开设计了我们的GPU硬件平台。

存储

存储在 AI训练中扮演着重要的角色,但却是最少被提及的方面之一。随着时间的推移,GenAI训练工作变得越来越多,需要大量的图像、视频和文本数据,因此对数据存储的需求迅速增长。然而,将所有数据存储放入高性能且节能的需求并没有消失,这使得问题变得更加有趣。

我们的存储部署通过本地的Linux Filesystem in Userspace (FUSE) API解决了AI集群的数据和检查点需求,该APIMeta的“构造”分布式存储解决方案版本支持,该解决方案针对Flash进行了优化。该解决方案使数千个GPU能够以同步方式保存和加载检查点(对任何存储解决方案来说都是一个挑战),同时还提供数据加载所需的灵活且高吞吐量的exabyte级存储。

我们还与Hammerspace合作,共同开发并行网络文件系统(NFS)部署,以满足该AI集群的开发人员经验要求。Hammerspace的优点之一是,工程师可以使用数千个GPU对作业进行交互式调试,因为环境中的所有节点都可以立即访问代码更改。当组合在一起时,我们的构造分布式存储解决方案和Hammerspace的组合可以在不影响规模的情况下实现快速迭代速度。

GenAI集群中的存储部署,包括构造和hammerspace支持,都基于YV3 Sierra Point服务器平台,并升级了最新的高容量E1.S SSD。除了更高的SSD容量之外,还定制了每个机架的服务器,以实现每个服务器的吞吐量、机架数量和功耗 之间的适当平衡。利用OCP服务器作为乐高积木,我们的存储层能够灵活地扩展到该集群以及未来更大的AI集群需求,同时对日常基础设施维护操作具有容错能力。

性能

我们在构建大规模 AI集群时的原则之一是最大化性能和易用性,而不牺牲其中一个。这是创建一流AI模型的重要原则。

当我们不断挑战AI系统的极限时,我们测试自己扩展设计能力的最佳方式就是简单地构建一个系统,对其进行优化,并进行实际测试(虽然模拟器可以提供帮助,但它们也只能做到这一点)。在这个设计过程中,我们比较了小型集群和大型集群的性能,以了解瓶颈在哪里。下面图表显示了AllGather的总体性能(按0-100的标准带宽表示)。

与优化后的小集群性能相比,我们在大型集群上的开箱性能最初很差,而且不一致。为了解决这个问题,我们对内部作业调度器在网络拓扑感知的情况下调度作业的方式进行了一些更改——这带来了延迟方面的好处,并最大限度地减少了流向网络上层的流量。我们还结合NVIDIA集体通信库(NCCL)的变化优化了网络路由策略,以实现最佳的网络利用率。这有助于推动大型集群实现与小型集群一样的出色性能。

除了针对内部基础设施的软件变更之外,我们还与编写训练 框架和模型的团队密切合作,以适应不断发展的基础设施。例如,NVIDIA H100 GPU开启了利用8位浮点(FP8)等新数据类型进行训练的可能性。充分利用更大的集群需要在额外的并行化技术和新的存储解决方案上进行投资,从而提供在数千个队列中高度优化检查点以在数百毫秒内运行的机会。

最后,我们将继续发展PyTorch,这是为AI工作负载提供动力的基础AI框架,使其为数万甚至数百,数千个GPU训练做好准备。我们已经确定了进程组初始化的多个瓶颈,并将启动时间从有时几小时减少到几分钟。

致力于开放 AI创新

Meta将继续致力于AI软硬件的开放式创新。我们相信,开源硬件和软件将永远是帮助行业大规模解决问题的宝贵工具。

今天,我们作为OCP的创始成员继续支持开放硬件创新,在那里我们为OCP社区提供Grand Teton和开放机架等设计。我们还将继续成为PyTorch的最大和主要贡献者,PyTorch是推动行业发展的AI软件框架。

我们还将继续致力于 AI研究领域的开放式创新。我们已经启动了开放创新 AI研究社区,这是一个学术研究人员的合作项目,旨在加深我们对如何负责任地开发和分享 AI技术的理解——特别是LLM

Meta来说,开放的AI方法并不新鲜。我们还启动了AI联盟,这是一个由 AI行业的领先组织组成的团体,致力于在一个开放的社区内加速 AI领域的创新。我们的 AI工作建立在开放科学和交叉合作的理念之上。一个开放的生态系统为 AI的发展带来了透明度、审查和信任,并让每个人都能从中受益。

Meta AI基础设施的未来

当我们展望未来时,我们认识到昨天或今天行之有效的方法可能不足以满足明天的需要。这就是为什么我们不断评估和改进基础设施的各个方面,从物理和虚拟层到软件层等等。我们的目标是创建灵活可靠的系统,以支持快速发展的新模型和研究。

原文链接:

https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/

高端微信群介绍

创业投资群

AI、IOT、芯片创始人、投资人、分析师、券商

闪存群

覆盖5000多位全球华人闪存、存储芯片精英

云计算群

全闪存、软件定义存储SDS、超融合等公有云和私有云讨论

AI芯片群

讨论AI芯片和GPU、FPGA、CPU异构计算

5G群

物联网、5G芯片讨论

第三代半导体群

氮化镓、碳化硅等化合物半导体讨论

存储芯片群

DRAM、NAND、3D XPoint等各类存储介质和主控讨论

汽车电子群

MCU、电源、传感器等汽车电子讨论

光电器件群

光通信、激光器、ToF、AR、VCSEL等光电器件讨论

渠道群

存储和芯片产品报价、行情、渠道、供应链

加入上述群聊

带你走进万物存储、万物智能、

万物互联信息革命新时代

微信号:SSDFans


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1