英伟达发布DGX GH200超级计算机：集成256个GH200芯片

作者：IT之家发布时间：2023-05-29

IT之家 5 月 29 日消息，英伟达今日在 2023 台北电脑展大会上发布了多项重磅消息，其中最引人注目的是其 Grace Hopper 超级芯片已经全面投产。这些芯片是英伟达新推出的 DGX GH200 人工智能超级计算平台和 MGX 系统的核心组件，它们专为处理海量的生成型人工智能任务而设计。英伟达还宣布了其新的 Spectrum-X 以太网网络平台，专为人工智能服务器和超级计算集群而优化。

Grace Hopper 超级芯片是英伟达开发的基于 Arm 架构的 CPU+GPU 集成方案，它将 72 核的 Grace CPU、Hopper GPU、96GB 的 HBM3 和 512 GB 的 LPDDR5X 集成在同一个封装中，共有 2000 亿个晶体管。这种组合提供了 CPU 和 GPU 之间惊人的数据带宽，高达 1 TB / s，为某些内存受限的工作负载提供了巨大的优势。

DGX GH200 人工智能超级计算平台是英伟达针对最高端的人工智能和高性能计算工作负载而设计的系统和参考架构，目前的 DGX A100 系统只能将八个 A100 GPU 联合起来作为一个单元，考虑到生成型人工智能的爆炸式增长，英伟达的客户迫切需要更大、更强大的系统，DGX GH200 就是为了提供最大的吞吐量和可扩展性而设计的，它通过使用英伟达的定制 NVLink Switch 芯片来避免标准集群连接选项（如 InfiniBand 和以太网）的限制。

DGX GH200 的细节还不太清楚，但已确认英伟达使用了一种新的 NVLink Switch 系统，包含 36 个 NVLink 开关，将 256 个 GH200 Grace Hopper 芯片和 144TB 的共享内存连接成一个单元，英伟达 CEO 黄仁勋表示，GH200 芯片为“巨型 GPU”。这是英伟达第一次使用 NVLink Switch 拓扑结构来构建整个超级计算机集群，英伟达称这种结构提供了比前一代系统高出 10 倍的 GPU 到 GPU 和 7 倍的 CPU 到 GPU 的带宽。它还设计了提供比竞争对手高出 5 倍的互连功耗效率和高达 128 TB / s 的对分带宽。该系统有 150 英里（IT之家备注：约 241.4 公里）的光纤，并且重达 4 万磅，但是呈现出来就像一个单一的 GPU。英伟达表示，256 颗 Grace Hopper 超级芯片将 DGX GH200 的“AI 性能”提升到了 exaflop（一百万万亿次）。

英伟达将把 DGX GH200 的参考蓝图提供给其主要客户谷歌、Meta 和微软，并且还将把该系统作为云服务提供商和超大规模数据中心的参考架构设计。英伟达自己也将部署一个新的英伟达 Helios 超级计算机，由四个 DGX GH200 系统组成，用于自家的研发工作。这四个系统共有 1024 个 Grace Hopper 芯片，并且用英伟达的 Quantum-2 InfiniBand 400 Gb / s 网络连接起来。

英伟达 DGX 面向最高端的系统，HGX 系统面向超大规模数据中心，而新的 MGX 系统则处于这两者之间，而且 DGX 和 HGX 将与新的 MGX 系统共存。英伟达的 OEM 合作伙伴在设计人工智能中心的服务器时面临着新的挑战，会降低设计和部署的速度。英伟达的新 MGX 参考架构旨在加快这一过程，提供了 100 多种参考设计。

MGX 系统由模块化设计组成，涵盖了英伟达的 CPU 和 GPU、DPU 和网络系统的各个方面，但也包括了基于常见的 x86 和 Arm 处理器的设计。英伟达还提供了空冷和液冷的设计选项，以适应各种应用场景。华硕、技嘉、永擎和和硕都将使用 MGX 参考架构来开发将在今年晚些时候到明年初推出的系统。

至于新的 Spectrum-X 网络平台，英伟达称它为“专为人工智能而打造的高性能以太网”网络平台。Spectrum-X 设计采用了英伟达的 51 Tb / s Spectrum-4 400 GbE 以太网交换机和英伟达 Bulefield-3 DPU，搭配软件和 SDK，使开发人员能够根据 AI 工作负载的独特需求调整系统。

与其他基于以太网的系统相比，英伟达称 Spectrum-X 是无损的，从而提供了更好的 QoS 和延迟。它还具有新的自适应路由技术，这在多租户环境中特别有用。