算力平台：Nvidia H20 的实用价值

作者：小元宇宙发布时间：2024-10-14

一、引言

站在这个时间点上看，2024年国内通过合规渠道能采购的英伟达的高端显卡只有H20 [1, 2]。Nvidia H20拥有高配的显存、很高的卡间互联带宽和有竞争力的FP8算力，是值得推荐的一款GPU卡（单看96GB的HBM3显存配置，也推荐大家使用H20）。

笔者预测2024年Nvidia H20的销售情况与2023年Nvidia H800的销售情况会比较类似，会从刚开始大家观望到后来大家抢购（再到买不到）。本文就谈谈Nvidia H20的实用价值。

二、H20简介与对比

Nvidia H20是从Nvidia H200裁剪而来的[1, 2, 3]，保留了900GB/s的卡间高速互联带宽（NVLink4.0和NVSwitch3.0）[4]，并支持PCIe Gen5（128GB/s双向带宽）。PCIe Gen5连接支持400GbE集群网络，有利于组建超大规模GPU集群和保持较高的集群线性加速比。

在算力方面，H20峰值算力只有H200峰值算力的14.96%（～15%），H20峰值算力相对较低（被严重裁剪）。

在L2 Cache配置方面，H20配置了60MB的L2 Cache，比H200有更大的L2 Cache。Nvidia H20拥有96GB的HBM3显存，显存带宽高达4TB/s。虽然Nvidia H20的显存配置相对于H200有所裁剪，但是H20的显存配置相对于国产AI芯片还是有明显优势的。

Nvidia GPU

FP16算力（稠密，TFLOPS）

FP8算力
（稠密，TFLOPS）

L2 Cache
（MB）

显存容量（GB）

显存带宽（TB/s）

卡间互联带宽（GB/s）

PCIe连接

H200

989.5

1979

141

4.8

900

Gen5

H20

148

296

4.0

900

Gen5

当前国内大模型厂商的训练算力主要集中在Nvidia A800和H800 [5, 6]，以及华为昇腾910B-A2 [7, 8]，与现有的算力资源相比，Nvidia H20也有其独特的优势。

例如，相较于Nvidia A800，Nvidia H20在FP8算力、显存配置、卡间互联带宽、PCIe连接等方面都有显著优势；相较于Nvidia H800，Nvidia H20在L2 Cache、显存配置、卡间互联带宽等方面都有显著优势；相较于华为昇腾910B-A2，Nvidia H20在FP8算力、显存配置、卡间互联带宽等方面都有显著优势。

AI加速卡

FP16算力（稠密，TFLOPS）

FP8算力
（稠密，TFLOPS）

L2 Cache
（MB）

显存容量（GB）

显存带宽（TB/s）

卡间互联带宽（GB/s）

PCIe连接

H800

989.5

1979

3.35

400

Gen5

H20

148

296

4.0

900

Gen5

A800

312

不支持

2.0

400

Gen4（64 GB/s）

910B-A2

376

不支持

1.6

56（392 when 1-to-7）

Gen5

三、H20 for 大模型训练

Nvidia H20拥有非常高的卡间互联带宽，并支持PCIe Gen5，在配备400GbE集群网络情况下，H20集群线性加速比接近于1，使得H20卡非常适合用来组建大规模集群。

使用Nvidia H20执行大模型训练任务，基于目前的一些测试结果，对于BF16混合精度训练，在集群规模较小的情况下（例如，512 x H20），Nvidia H20训练吞吐大概可以达到Nvidia A800训练吞吐的62%（即集群规模较小的情况下，H20的性能是A800的性能的～60%）[11, 12]；在集群规模较大的情况下（例如，4096 x H20），Nvidia H20训练吞吐大概可以达到Nvidia A800训练吞吐的70%（即集群规模较大的情况下，H20的性能是A800的性能的～70%）。

Huawei 910B-A2（over A800）

Nvidia H20（over A800）

Nvidia A800

较小集群规模（～512卡）

75% ~ 85%

60% ~ 70%

100%

较大集群规模（～4096卡）

60% ~ 70%

65% ~ 75%

90%（线性加速比）

FP8计算

不支持

大于100%

100%

值得说明的是，FP8混合精度训练方法还不成熟，在现阶段只能支持规模较小的LLM模型训练（例如，34B及以下）。未来随着技术的演讲，FP8混合精度训练会成为主流技术。

四、H20 for 大模型推理

Nvidia H20拥有非常好的显存配置以及较好的FP8峰值算力，适合用于LLM推理。使用Nvidia H20执行大模型推理任务，特别是LLM推理任务，Nvidia H20推理性能比Nvidia H800推理性能高出20%（例如，对比显存带宽：4/3.35 ～= 1.19 = 120%）[2, 9, 10]。

随着未来LLM模型参数规模越来越大，需要使用拥有高配显存的AI芯片来进行推理服务，使用Nvidia H20执行超大LLM模型推理任务，是性价比更高的选择[1, 2, 9, 10]。

此外，也可以使用Nvidia H20置换现在推理服务中使用A800和H800卡，这样就可以有更多的A800卡和H800卡用于大模型训练任务。

Huawei 910B-A2（over A800）

Nvidia H20（over A800）

Nvidia A800

推理实例（～单机8卡）

75% ~ 85%

100% ~ 120%

100%

推理实例（～32卡）

70% ~ 80%

100% ~ 125%

100%

综上所述，Nvidia H20核心价值在于：（1）使用H20组建大规模集群用于大模型训练（例如，FP8混合精度训练）；（2）H20适合用于超大规模LLM推理（FP8计算）；（3）H20价格适中（性价比高）[1, 13, 14]。

五、参考文献

NVIDIA Readying H20 AI GPU for Chinese Market
Nvidia's New China AI Chips Circumvent US Restrictions | H20 Faster Than H100 | Huawei Ascend 910B
NVIDIA H200 Tensor Core GPU
NVLink & NVSwitch for Advanced Multi-GPU Communication
NVIDIA A800 PCIe 80 GB Specs
NVIDIA H800 SXM5 Specs
GPU 进阶笔记（二）：华为昇腾 910B GPU 相关（2023）
科大讯回应美国AI芯片管制：华为昇腾910B基本可对标英伟达A100
Compared to the H100, how does the performance of NVIDIA's AI chips specially designed for China, fare?
为何英伟达H20推理性能超过H100？_腾讯新闻
英伟达对华“特供”的H20、RTX4090D将受限？ - 芯智讯
英伟达阻击国产 AI 芯片，“中国特供版”H20综合算力比H100降80%
英伟达H20性能下降80%，价格对标华为，阻击国产AI芯片？中国成英伟达AI芯片最大变数！
调研菌：NVIDIA H20或将与国产算力同步高增