当前位置:首页|资讯

2美元就能用上H100? 英伟达H100价格崩盘,集群投资血亏:GPU生意还怎么玩下去?

作者:AI前线发布时间:2024-10-17

就在去年,H100 GPU 的每小时租赁价格还高达 8 美元。可现如今,不单可选的租赁商更加丰富,市场平均价甚至开始低于 2 美元。短短时间究竟发生了什么?  

最近,英伟达的全新 Blackwell 系列已经开始向 OpenAI 出货,甚至表示明年的产能储备已经售罄。消息一出立即引起广泛关注,甚至有声音认为这将是“行业历史上最成功的产品”。

但人们也清醒地意识到,花在基础模型训练上的资本支出同样也是“有史以来贬值速度最快的资产”,而 GPU 基础设施支出也面临着类似的风险。总之,如今的 GPU 争夺完全是一场富人和大厂才有资格参与的战争。

与此同时,各前沿实验室在训练和推理方面的支出仍然高于实际收入。尽管 OpenAI 在史上最大规模的一轮风险投资中筹集到 66 亿美元,但仍预计 2026 年的亏损额将达到 140 亿美元。如果不能实现通用人工智能(AGI),生成式 AI 的整个财务逻辑都根本解释不通。

本文的“太长不看”版:别买 H100。随着预留计算转租、开放模型微调和新型基础设施厂商的衰落,GPU 资源已经从供应短缺(对应 8 美元 / 小时)转变为供过于求(2 美元 / 小时)。所以,去租,别买。对于常规市场而言,在目前供应过剩的情况下,大家已经可以用接近成本的价格租到 GPU 资源,所以投资购置新 H100 已经失去意义。 

  借 ChatGPT 崛起的 H100, 一年半后价格崩盘 

ChatGPT 于 2022 年 11 月发布,当时配套的 GPU 是 A100 系列。H100 于 2023 年 3 月上市,给投资者和创始人们的宣传话术也很简单:与 A100 相比,全新 H100 的功能提升至 3 倍,但价格仅为 2 倍。

也就是说,只要能够迅速出手在 H100 身上砸下资金,买家就能建立起规模更大、质量更高的模型,甚至有望超过 OpenAI 率先实现通用人工智能——一切的前提,就是要有钱!

怀着这种愿望,数十亿美元被砸向握有 GPU 资源的 AI 初创公司,旨在推动下一轮技术革命。于是乎,H100 市场需求迅速激增。

市场价格一路飙升,H100 最初的租赁价格约为每小时 4.70 美元,但很快涨到了 8 美元以上。对于绝望的创始人们来说,为了尽早让自己的模型开始训练,他们必须想办法说服投资者参与一轮又一轮的亿级美元融资。

英伟达在 2023 年的投资者演讲中,向投资者和数据中心客户们宣传以每小时 4 美元价格租用 H100 这一“市场机遇”。

而在 GPU“农场”这边,钱就像印的一样飘然而至。毕竟如果能说服初始人们以每小时 4.70 美元甚至更高的价格租用你的 H100 SXMGPU,甚至开放付费预约通道,那么整个投资回报周期将不到一年半。也就是说,每块 GPU 每年将带来超过 10 万美元的自由流动现金。

由于对 GPU 的需求极其旺盛,投资者们也只能点头同意,甚至拿出了超过预期的投资额度。

郁金香泡沫——这是有记录以来的第一次投机泡沫事件,郁金香价格于 1634 年起持续攀升,并于 1637 年 2 月彻底崩盘。

跟数字商品不同,实体商品存在一定滞后时间,尤其容易受到发货推迟的影响。

纵观整个 2023 年,大部分时间里 H100 的租赁价格都要比 4.70 美元 / 小时更高,而享受折扣的办法,就是支付巨额预约金。

而从 2024 年开始,多家服务商的 H100 租赁价来到 2.85 美元。随着越来越多服务商相继上线,我开始收到这样的邮件:

虽然我未能以每小时 4 美元的价格成功租下 H100 节点(8 块 H100),但经过反复确认,每小时 8 到 16 美元是肯定可以租到的。

2024 年 8 月,只要占用时间不太长(几天到几周),那么用户已经可以按每小时 1 到 2 美元的价格租到 H100 GPU。

我们预计每年租赁价格将下降至少 40%,特别是对于小型集群而言。也就是说,英伟达当初预测的每张 GPU 每小时 4 美元的租价在不到一年半之内已然崩盘。

这就太可怕了,肯定会有人因此蒙受损失——特别是对那些新款 GPU 的买家来说。可是,究竟发生了什么?

售价 5 万美元的 H100 SXM, 投资回报率到底如何? 

这里我们只根据各种市场价格,尝试讨论经济成本和租赁投资回报率。机会成本或者商业价值不在讨论范围之内。

数据中心内每张 H100 SXM GPU 的平均安装、维护和运营成本为 5 万美元或更高(其中大部分为资本支出),这还不算电力和冷却系统的运营成本。后文将提供更多细节核算信息。另外,我们假设 GPU 本身的使用寿命为 5 年。

一般来讲,H100 有两种租赁商业模式,分别为:

短期按需租赁(按小时、按周或按月租赁);

长期预留(3 到 5 年)。

按需租赁的投资回报 

总结一下,对于按需类工作负载:

高于 2.85 美元:超过了股市的内部收益率;

低于 2.85 美元:低于股市的内部收益率;

低于 1.65 美元:造成实质性投资损失。

对于上述投资回报与收入预测,我们引入了“混合价格”的概念,即假设租金会在 5 年之内逐渐下降至 50%。

考虑到 GPU 目前每年的租赁价格跌幅超过 40%,可以说 5 年才降至一半已经是个相当乐观的前提,但至少这能在一定程度上勾勒出 GPU 的投资回报走势。

按每小时 4.50 美元的起始价格计算,哪怕是基于混合价格,整个回本周期也只有两年,相当于内部收益率(IRR)超过了 20%。

然而如果按每小时 2.85 美元计算,则内部收益率将仅仅略高于 10%。也就是说,如果我们当下购买一台全新 H100 服务器,而市场租赁价格又不到每小时 2.85 美元(毕竟谁也不敢说肯定能租出高于市场平均的价位),那这买卖还勉强能做。如果更低,不如直接去买股票,回报率要比建设 H100 基础设施更好。

如果价格跌破每小时 1.65 美元,那么五年周期之内基础设施服务商反而会遭受亏损。特别是如果今年才决定购买节点和集群,那结果将更加惨痛。

长期预订租约(三年以上) 

不少基础设施服务商,特别是那些老牌厂商,对这事其实颇有心得。毕竟在经历了加密货币时代的 GPU 价格大幅上涨之后,他们已经对于 GPU 租金跳水有了深刻的感受和认知。

所以在去年的最新周期内,他们开始大力推动 3 到 5 年的预付款租约及 / 或 4 美元以上价位的订单(预付比例一般在 50% 到 100%)。如今,他们将价格范围调整到了 2.85 美元以上,为的就是能把利润牢牢锁住。

2023 年 AI 大爆发期间,各种基础模型公司(特别是图像生成领域)只能接受这种为期三到五年的高价合格,只为跟上行业趋势、保持自身竞争力、率先发布自己的目标模型。如果不这么做,他们将失去竞逐下一轮融资的机会,直接人间蒸发。

这事当然不经济,但能否比竞争对手行动更快将决定一切。而这也引发了有趣的市场动态——如果愿意为 H100 支付每小时 3 到 4 美元的价格,那么在接下来的三年之内,你将再无改价的余地。

可是在模型训练完成之后,也就不需要集群了,那他们会怎么做?答案很简单,继续转租来收回部分成本。

从硬件到 AI 推理 / 微调,我们可以将供应体系大致分成以下几类:

  • 与英伟达合作的硬件供应商(即支付一次性购买成本);
  • 数据中心基础设施提供商与合作伙伴(销售长期租约、设施空间及 / 或 H100 节点);
  • 风险投资基金、大型企业和初创公司:计算构建基础模型(或者已经完成了模型构建);
  • 算力容量经销商:Runpod、SFCompute、Together.ai、Vast.ai、GPUlist.ai 等;
  • 托管 AI 推理 / 微调服务商:使用上述供应的随机组合。

虽然堆栈之下的任何层间都可以垂直集成(例如跳过基础设施运营方),但其中最核心的驱动因素是“尚有闲置容量的经销商”和“高质量”开放权重模型(例如 Llama 3)的兴起,这些正是当前 H100 经济压力的主要来源。

在性能上与闭源模型不相上下的开放权重模型的兴起,正在推动市场发生根本性转变。

市场趋势:开放权重模型的兴起 

由于大量“开放”模型缺乏适当的“开源”许可证,但却允许免费分发并进行广泛使用,甚至应用于商业用途,因此我们在这里将其统称为“开放权重”或者“开放”模型。

一般来讲,随着不同规模各类开放权重模型的出现,市场上对于推理和微调的需求也将随之增长。这主要受到两个重大事件的推动:

  • GPT4 级别开放模型的到来(例如 405B Llama 3、DeepSeek-v2 等);
  • 小型(约 8B 规模)及中型(约 70B 规模)微调模型的成熟和落地。
  • 如今,对于企业可能需要的绝大多数用例,现成的开放权重模型都能很好地提供支持。在某些基准测试中,它们往往只比最先进的专有模型稍逊一筹。这带来了以下优势:
  • 灵活性:特定于领域 / 任务的微调方向;
  • 可靠性:不再需要通过小规模模型更新影响用例(目前社区相当抵触通过公共 API 端点,以未经通知而悄悄变更的方式调整模型权重,因此生成结果的解释和溯源相对较好);
  • 安全和隐私:确保用户的提示词和客户数据均安全无忧。

所有这一切都拉动了开放模型的持续增长和落地,市场对于推理和微调的需求也随之升温。

但这也带来了新的问题……

中小型模型开发者遭遇整体崩溃 

这里的“模型创建者”,是对那些从头开始构建模型的组织的统称。对于主做微调开发的,我们称之为“模型微调者”。

众多企业乃至中小型基础模型初创公司——特别是那些以“小体量、专精型领域特定模型”为卖点的厂商,都没有从头开始训练大规模基础模型(大于 70B 参数)的长期计划 / 目标。

对这两类群体来说,对现成的开放权重模型进行微调,要远比“自主训练”更加经济和高效。于是乎,H100 的市场需求就迎来了三重打击:

1. 微调比从头训练便宜得多。

与从头开始训练(对于 7B 参数及以上模型,至少需要 16 个节点甚至更多)相比,微调对于算力资源的要求要低很多(通常为 4 个或者更少节点,大多只需要单个节点)。这种全行业式的转变,实际上消除了很大一部分小型集群需求。

2. 缩减基础模型投入(中小型)。

2023 年,在文本和图像领域出现了很多的中小型基础模型。然而如今,除非大家有绝对的信心可以超越 Llama 3,或者引入了一些全新的元素(例如新架构、百分之一级别的推理成本、上百种语言支持等),否则根本就不会再从头开始开发新的基础模型。一般而言,大型企业(Facebook 等)定期发布的中小型开放模型,已经让小公司没有理由再训练自己的基础模型(除非在技术或者数据层面有着强大的差异化优势),甚至不再需要向更大的模型扩展。最近投资者的倾向也反映了这一点,新基础模型创建者能够获得的资金急剧下降。绝大多数小规模组织已经转向微调(也有不少公司被迫退出市场)。

就目前的情况看,我估计全球范围内大约只存在不到 20 家大规模模型创建团队(即远超 70B 级别的参数,但其同时也可能开发小体量模型);不到 30 家中 / 小规模模型创建团队(参数在 7B 到 70B 之间)。

总的来说,全球只有不到 50 支团队愿意随时采购 16 个或者更多的 H100 节点以进行基础模型训练。全球共有 50 多个容纳有 16 节点以上的 H100 集群。

3. 预留节点的过剩容量即将汹涌袭来。

对于集群所有者,特别是各类基础模型初创公司和风险投资公司来说,他们在 2023 年最初的“圈地运动”中签下了大量长期租约。随着负载类型转向微调,加上 H100 的交货周期太过漫长(峰值时超过 6 个月),其中不少很可能已经预付了款项,最终造成了承租硬件“到手即过时”的局面。或者,哪怕是按时拿到了硬件来训练自己模型的企业也已经意识到,下一个迭代模型最好采用微调方式开发,而不再自主构建。

无论是以上哪种情况,他们都将掌握大量闲置容量,而这些容量将通过调控市场供应的“算力经销商”面向广大用户开放。

导致供应增加及训练需求减少的其他因素 

1.大模型创建者告别公有云平台

所有主要模型创建者,包括 Facebook、X.AI 乃至 OpenAI(算作是微软的一部分),都在尝试摆脱现有公有云提供商并构建起自己价值数十亿美元的集群,旨在消除对外部资源的依赖。这一举措主要出于以下考量:

现有的约 1000 节点集群(构建成本超过 5000 万美元)体量不够,无法训练出更大的模型;

在十亿美元的规模下,财务部门更倾向于采购具有账面价值(即充当公司估值及资产)的资产(例如服务器和土地等),而不愿接受纯粹的开支性租赁成本;

如果缺少专业人才,也可以直接收购小型数据中心企业,他们掌握着构建相关设施的必要专业知识。

所以随着市场需求按阶段逐步减少,这些集群也开始进入公有云市场。

Vast.ai 本质上是一个自由市场体系,来自世界各地的供应商被迫在这里相互竞争。

2.未使用 / 延迟供应的容量也将上线

还记得 2023 年那会长达六个月的 H100 交付延迟吗?现在它们正在跟 H200、B200 一道血洗整个 GPU 容量租赁市场。与此同时,其他各种未被用起来的闲置资源也开始上线(即前文提到的初创公司、大型企业乃至风险投资公司)。

这部分供应大多是通过算力经销商完成的,例如:together.ai、sfcompute、runpod、vast.ai 等。

在大多数情况下,集群所有者掌握着一套小型或者中型集群(通常拥有 8 到 64 个节点),但资源利用率却很低。这对已经花出去的集群采购资金来说,肯定不是笔好买卖。所以为了尽可能多地收回成本,他们宁愿削弱市场价位来增加供应,而这必然会让各大主要供应商的日子也不好过。

这部分供应主要依托于固定费率、拍卖系统或者自由市场交易等方式交付,而后面两种都会压低市场价格。

3.更便宜的 GPU 替代品(主要用于推理)

再有一个主要因素,就是一旦结束了训练 / 微调周期,到推理阶段就有许多替代方案可用了。特别是对于小规模模型来说,推理负载其实很容易解决。

所以到这时候,没人会愿意继续为 H100 的 Infiniband 及 / 或英伟达提出的其他溢价买单。

a. 英伟达自己也在吃细分市场的蛋糕

H100 的训练溢价已经被纳入官方硬件价格。例如,英伟达自己就发布了 L40S,一种更具价格竞争力的推理替代硬件。

性能是三分之一,价格是五分之一,唯一短板就是不适用于多节点训练。英伟达自己就在削弱 H100 在这部分细分市场的定价权。

b. AMD 与英特尔也有相应产品

AMD 和英特尔分别发布了 MX300 和 Gaudi 3,虽然迟迟没有投放市场,但早已在用户心中埋下了期待的种子。我们对这些系统进行了测试和验证,并发现:

它们的采购价格比 H100 便宜;

内存和计算能力比 H100 更强,在单节点上的表现更加出色;

总体而言,它们都是出色的硬件产品!

唯一的问题,就在于它们的驱动程序在训练过程中存在一点小问题,而且还没有完全经过大规模多节点集群训练的验证。但前文已经提到,这些问题只会影响到不足 50 支研发团队。H100 的市场定位本来就一直在向推理及单个 / 小型集群微调场景发展,而 AMD 和英特尔在这一领域的表现并不差。

所有这些 GPU 都能完成工作,甚至足以承载绝大多数市场需要的用例。所以说 AMD 和英特尔带来的是完全的替代品,甚至能够使用现成的推理代码(例如 VLLM)并且适用于大多数常见模型架构(主要是 Llama 3)的微调代码。

所以说,只要兼容性不是太大的问题,那这些产品就非常值得考虑。

c. 加密货币 /Web3 领域的 GPU 使用率持续下降

随着以太坊转向权益证明再加上 ASIC 主导了比特币采矿竞赛,加密货币市场已经逐渐陷入沉寂。

于是乎,加密货币采矿领域的 GPU 使用率一直呈下降趋势,在某些情况下甚至无利可图。在此之后,大量 GPU 被投放到了公有云平台之上。

虽然受到硬件限制(例如 PCIe 带宽不足、网络传输不稳定等),绝大多数 GPU 无法被用于训练甚至是推理类工作负载,但转售的硬件已经充斥市场,并被重新收归 AI 工作负载所用。所以在多数情况下,只要大家的预期参数规模低于 10B,就完全可以用极低的价格获取这些 GPU 并获得不错的性能表现。

如果再做进一步优化(例如使用各种技巧),甚至可以让 405B 级别的模型在这类小型硬件集群之上运行,且成本要远低于 H100 节点。

H100 正趋向“白菜价”甚至亏损出租,接下来又该怎么办?

聊聊潜在的影响 

不好不坏:H100 集群价格进一步细分 

从宏观角度看,预计大规模集群仍将拥有一定的溢价空间(但不高于 2.90 美元 / 小时),毕竟这部分负载仍然别无选择。

更具体地讲,使用 Infiniband 的集群将继续保持较高费率。而基于以太网的实例则更适合推理,且价格相对更低,并可根据具体用例 / 可用性进行价格调整。虽然基础模型创建者团队总体呈下降趋势,但很难预测这是否会随着开放权利及 / 或替代架构的增长而复苏。

预计未来我们还会看到按集群规模进行的深层细分,即使用 Infiniband 的大规模 512 节点集群的每 GPU 费用,可能会高于 16 节点集群。

坏消息:公有云的新 H100 集群入局较晚,很可能已经无利可图——投资者恐将蒙受损失 

如果受种种不利因素影响而导致当前定价低于 2.25 美元,那么一旦您的运营成本优化不够彻底,很可能会面临无利可图的风险。而如果定价过高(超过 3 美元),则可能无法吸引到足够的买家来消化容量。继续观望?那更不行,在有限的 GPU 寿命周期之内,我们必须想办法收回当初按 4 美元 / 小时合同约定的高昂成本。

总而言之,当前的集群投资对于利益相关方和出资人来说完全成为一块鸡肋。

虽然我认为实际情况没这么悲观,但如果新集群真在 AI 投资组合中占据很大一部分,那么资金链因此断裂的资方很可能身陷困境,最终引发新一轮连锁反应。

不好不坏:相较于采购或签订长期租约的大规模模型创建者,中型模型创建者获得的转租价值仍有机会抵消溢价 

这不是在安慰大家,部分将未使用计算资源转租出去的模型创建者已经开始获取回报。融资市场已经为此类集群及其模型训练定价并支付了费用,额外“提取的价值”将可用于支撑当前及下一轮融资。

大多数此类采购都是抢在算力经销商涌现之前完成的,所以其成本已经被计入了价格。如果非要说有什么不同,那就是他们能从过剩的 H100 算力中再压榨一部分收入,而其他人则享受到了更低的租赁价格,这对双方都有好处。

从这个角度看,他们对市场的负面影响就微乎其微了。甚至对于整个生态系统具有正向净收益。

好消息:H100 使用成本下降将推动开放权重 AI 的普及浪潮 

考虑到开放权重模型已经来到 GPT4 的水平,H100 价格下跌或将成为开放权重 AI 普及的放大器。对于业余爱好者、AI 开发人员以及业内工程师来说,运行、微调和修改这些开放模型的成本将越来越低。特别是如果后续发布的 GPT5++ 没有什么重大飞跃,则意味着开放权重模型和闭源模型之间的边界将愈发模糊。

目前的情况是,人们都在制造铲子,但却拿不出多少能够真正为用户服务的应用程序(对应收入和商业价值)。而如果 AI 推理和微调的成本低到前所未有的水平,则将最终掀起 AI 应用的浪潮,真正让生成式 AI 走进千家万户。

结论:别买全新 H100 

采购全新 H100 硬件可能是笔亏本的买卖。

除非你能找到打折的 H100、打折的电力供应或者拥有极其强大的自主 AI 运营管理能力,又或者自有 GPU 对于你的业务极其重要。再就是,你掌握着数十亿美元,而且确实需要一套超大规模的集群。如果单论投资,那不妨考虑其他领域,甚至直接买股票都有更好的大盘回报。

原文链接:

https://www.latent.space/p/gpu-bubble

本文来自微信公众号“AI前线”,作者:Eugene Cheah,36氪经授权发布。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1