全球最大AI超算内部首次曝光，马斯克19天神速组装10万块H100，未来规模还将扩大一倍

作者：新智元发布时间：2024-10-31

【导读】一文揭秘全球最大AI超算，解析液冷机架和网络系统的创新设计。这台全球最大AI超算Colossus由xAI和英伟达联手建造，耗资数十亿，10万块H100仅半个多月搭建完成，未来规模还将扩大一倍！

两个月前，马斯克才刚刚自曝了xAI的Colossus超算，称其是世界上最强大的AI训练系统。

最近，马斯克又宣布了一条振奋人心的消息——集群即将扩展到20万张H100/H200显卡！

同时，ServeTheHome也发布了一条15分钟的视频，公布了这台超算的详情！

来自ServeTheHome的Patrick Kennedy带着摄影机探访了这台超级计算机

这台全球最大的AI超级计算机Colossus位于美国田纳西州孟菲斯，配备了10万个英伟达Hopper GPU，并由英伟达Spectrum-X以太网提供网络传输支持。

目前，Colossus的第一阶段建设已完成，集群全面上线，但这并不是终点。它将很快迎来升级，GPU容量将翻倍，新增5万块H100 GPU和5万块下一代H200 GPU。

Colossus正在用于训练xAI的Grok，并为X Premium订阅用户提供聊天机器人功能。

在训练超大规模的Grok时，Colossus展现了前所未有的网络性能。在网络结构的所有层级中，系统在流量冲突的情况下没有经历任何应用延迟降级或数据包丢失。

通过Spectrum-X拥塞控制，它保持了95%的数据吞吐量。这种性能水平无法通过标准以太网实现，标准以太网在传输中会产生数千次流量冲突，数据吞吐量仅能达到60%。

由于保密协议的限制，这台超级计算机的一些细节并没有透露。不过，像Supermicro GPU服务器等关键部件的介绍在视频中都有所涉及。

液冷机架

Colossus集群的基本构建单元是Supermicro液冷机架。

每个机架包含八台4U服务器，每台服务器配备八个英伟达H100，共计64个GPU。

八台此类GPU服务器再加上一个Supermicro冷却分配单元（CDU）及相关硬件，构成了一个GPU计算机架。

这些机架以八台为一组排列，共512个GPU，并通过网络连接，形成更大系统中的小型集群。

xAI使用的是Supermicro 4U通用GPU系统。

这是目前市面上最先进的AI服务器，有2个原因：其一是它的液冷程度；其二是设备的可维护性。

该系统被放置在托盘上，无需将系统从机架中移出即可维护。1U机架分流器可为每个系统引入冷却液并排出温热液体。快速断开装置让液冷系统可以迅速移除，甚至可以人工单手拆装；移除后，托盘即可拉出以便维护。

下图是一张该服务器原型的照片，展示了这些系统的内部构造。

SC23展示的Supermicro 4U通用GPU系统：支持液冷英伟达HGX H100和HGX 200

上图SC23原型中的两个x86 CPU液冷模块相对常见。

特别之处在于右侧：Supermicro的主板集成了几乎所有HGX AI服务器中使用的四个Broadcom PCIe交换机，而非将其单独安装在另一块板上。Supermicro为这四个PCIe交换机设计了定制液冷模块。

其他AI服务器通常是在风冷设计的基础上加装液冷，而Supermicro的设计则完全从零开始，为液冷而打造，且所有组件均来自同一供应商。

打个通俗的比方，这类似于汽车——有些车型先设计为燃油车，之后再安装电动动力系统，而有些车型从一开始就是为电动车设计的。这款Supermicro系统就属于后者，而其他HGX H100系统则属于前者。

Patrick怒赞道：测评了各种各样的液冷系统设计，这款Supermicro系统遥遥领先于其他系统！

网络系统

这里的每条光纤连接速率为400GbE，是常见1GbE网络速率的400倍。此外，每个系统拥有9条这样的连接，意味着每台GPU计算服务器的带宽达到约3.6Tbps。

打个比方，如果1GbE的普通家庭网络好比是一条单车道公路，那这个400GbE就像是一条拥有400车道的高速公路。而每个系统有9条这样的「高速公路」，相当于每台GPU计算服务器拥有9条这样的超宽带公路，总带宽达到3.6Tbps。

这个带宽甚至超过了2021年初顶级Intel Xeon服务器处理器在所有PCIe通道上所能处理的连接总量。

GPU的RDMA网络构成了该带宽的大部分。每个GPU都有自己的NIC。

在这里，xAI使用英伟达BlueField-3 SuperNIC和Spectrum-X网络。英伟达的网络堆栈中加入了一些独特技术，可以帮助数据绕过集群中的瓶颈，确保数据准确地传输到指定位置。

这是一个重大突破！许多超级计算机网络使用的是InfiniBand或其他技术，而这里采用的是以太网。

以太网是互联网的骨干，因此它具有极强的扩展性。这些庞大的AI集群已扩展到一些更小众技术未能触及的规模。对于xAI团队而言，这确实是一个大胆的举措。

除了GPU的RDMA网络外，CPU也配备了400GbE连接，但使用完全不同的交换结构。xAI为其GPU和集群的其余部分分别配置了独立的网络，这在高性能计算集群中是非常常见的设计。

除了高速集群网络外，还有低速网络用于管理接口和环境设备，这些都是此类集群的重要组成部分。

参考资料：

https://www.servethehome.com/inside-100000-nvidia-gpu-xai-colossus-cluster-supermicro-helped-build-for-elon-musk/3/

本文来自微信公众号“新智元”，编辑：静音，36氪经授权发布。

近期资讯

魅罗科技 2024-10-28

本文将涵盖数据获取、数据处理、模型构建、训练和评估，并通过代码示例详细说明每一步。背景介绍天气预报对农业、航空、航海以及日常生活都有重要影响。传统的天气预报依赖于复杂的数值天气预报模型，而近年来，机器学习技术在气象数据分析与预测中的应用越来越广泛。通过Python，我们可以轻松地获取、处理和分析气象数据，并构建预测模型。数据获取与处理我们可以使用pandas库来读取和处理气象数据。假设我们有一个包含日期、温度、湿度、风速等信息的数据集，我们将使用这些数据来训练预测模型。import pandas as p

Echo_Wish 2024-10-28

数字化平台：拓展圈层与保护圈层的平衡之道

在当今数字化时代，数字化平台的影响力日益凸显。它不仅改变了我们的生活方式，还在拓展圈层方面展现出巨大潜力。然而，拓展圈层的同时也不能忽视可能带来的风险。数字化平台拓展圈层的方式多样。首先是精准推荐算法，根据用户的兴趣、行为和偏好，为用户提供个性化内容推荐，帮助用户发现更多与自身兴趣相关的人和事物。其次，社交互动功能丰富，如评论、点赞、分享、私信等，促进用户之间的交流和互动，拓展社交圈层。再者，跨平台合作与整合实现资源共享和用户流量互通，连接不同平台的用户群体。但拓展圈层也可能带来风险。信息过载与同质化是其

开利网络 2024-10-28

这款数据恢复软件真的巨好用！你一定要试试！

在我们的日常生活和工作中，数据丢失可能随时发生，可能是因为误删除、格式化、病毒攻击或者硬件故障等原因。当这种情况发生时，一款强大的数据恢复软件就成为了我们的救命稻草。今天，就为大家介绍几款备受好评的数据恢复软件，它们各有特色，能够在不同的场景下帮助我们找回宝贵的数据。嗨格式数据恢复专业数据恢复软件点此免费试用：https://t.hgs.cn/bz5/嗨格式数据恢复软件是一款功能强大且全面的数据恢复利器。它具有广泛的设备兼容性，无论是电脑硬盘、U 盘、SD 卡还是其他存储设备，都能轻松应对。其快速扫描技术

嗨格式 2024-10-28

全球最大AI超算内部首次曝光，马斯克19天神速组装10万块H100，未来规模还将扩大一倍

液冷机架

网络系统

推荐体验

相关资讯

仅用19天，马斯克建成全球最强“超算工厂”！10万块H100 GPU上线，Grok 3预计年底发布

AI争霸战开启，OpenAI急建10万块GB200超算，马斯克10万块H100月末开训

马斯克：训练Grok3用了10万块英伟达H100

单机群10万块H100，凌晨悄然启动，马斯克这是要干嘛？

英伟达赚翻了！马斯克计划投入10万块H100 GPU搭建算力超级工厂！

近期资讯

桨式搅拌机如何选型

MYH4蛋白；MYH4重组蛋白—艾普蒂生物

PLGA-PEG-MAL/Maleimide PEG-PLGA 聚乳酸-羟基乙酸共聚物-聚乙二醇-马来酰亚胺

汽车吊起重吊装安全知识培训

企业安全文化建设

使用Python进行气象数据分析与预测

数字化平台：拓展圈层与保护圈层的平衡之道

这款数据恢复软件真的巨好用！你一定要试试！

ABS材料切割，机械臂加装NAKANISHI高速电主轴

10万元的纯电SUV 吉利银河E5与深蓝S05谁的性价比更高？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响