高负荷下的人工智能GPU：平均寿命仅1-3年

作者：科闻社发布时间：2024-10-29

在当今人工智能（AI）和高性能计算（HPC）日益依赖的环境中，图形处理单元（GPU）已经成为数据中心的重要计算资源。然而，最近的报告指出，这些高价GPU在实际使用中的寿命可能仅为1到3年，给AI行业的经济带来了潜在的影响。

根据Tech Fund引用的一位来自Alphabet的高级专家的观点，数据中心GPU的寿命受到其利用率的极大影响。现代数据中心中，GPU主要用于执行AI训练和推理等高强度计算任务。在这种情况下，GPU往往处于高负荷状态，导致其磨损速度远超其他硬件组件。云计算服务提供商（CSP）在运营中发现，GPU的利用率通常维持在60%至70%之间，这种高负荷的工作环境进一步缩短了GPU的预期寿命。

在这样的利用率下，GPU的平均寿命一般在1到2年之间，最多可延长至3年。这一观点虽然尚未得到充分验证，但由于现代GPU的功耗通常达到700W或以上，确实给硅片带来了巨大的压力，这使得这种看法具备一定的可信度。

为了延长GPU的使用寿命，降低其利用率被认为是一种有效的方法。然而，这样的做法会导致GPU的贬值速度减缓，进而影响到资本回收的效率，这对于大多数商业运营来说并不是理想的选择。因此，许多云服务提供商更倾向于维持GPU的高利用率，以实现最佳的投资回报。

Meta在早些时候进行的一项研究表明，他们在训练Llama 3 405B模型时，使用了由16,384个Nvidia H100 80GB GPU组成的集群。尽管该集群的模型浮点运算利用率（MFU）约为38%，但在54天的训练过程中，发生了419次不可预见的故障，其中148次（约30.1%）是由各种GPU故障引起的，包括NVLink故障，而72次（约17.2%）则由HBM3内存故障引起。这表明，即使在相对较低的利用率下，GPU也面临着显著的故障风险。

Meta的研究结果显示，若以其故障率为依据，H100 GPU的年度故障率约为9%，而在三年内的年度故障率则约为27%。然而，随着GPU服役时间的延长，故障的频率可能会进一步增加，这给运营带来了不小的挑战。

随着AI和HPC应用的不断发展，数据中心对GPU的需求只会持续增长。然而，GPU的短寿命周期却使得数据中心的运营维护面临严峻考验。为了应对这一挑战，行业亟需开发更加耐用的GPU架构，寻找有效的管理和延长GPU使用寿命的方法。

与此同时，数据中心运营商还需要重新评估其硬件更新策略，以适应不断变化的技术需求和日益增长的计算负载。以传统三年折旧期为基础的资本投资计划已显得不再现实，企业需转向短期投资回收计划，以应对可能的现金流压力。

*免责声明：以上内容整理自网络，仅供交流学习之用。如有内容、版权问题，请留言与我们联系进行删除。