真的有人能在推理环节替代英伟达吗？

作者：钛媒体APP发布时间：2024-06-29

文｜互联网怪盗团

在中文互联网上，英伟达每天都在被颠覆。绝大部分自媒体和短视频达人都讨厌英伟达，包括周鸿祎在内。他们千方百计地指出，某种替代品（不管是不是国产）的性能指标已经超过英伟达A100或H100，后者即将沦为资本市场历史上最大的泡沫云云。尤其是在B站、小红书这样的平台，“英伟达将迅速被替代”可以被视为一致观点，反对这个观点的人将遭到群嘲。

其实，海外互联网同样如此。昨天还有AI行业的朋友给我分享了一份自称“性能大幅超过英伟达”的美国芯片厂商的自我介绍（是当笑话看的）。几个月前，芯片创业公司Groq发布了自称性能大幅超越英伟达的推理芯片，引发了一定的市场关注度。不同之处在于，海外网友稍微讲一点常识，知道英伟达在训练领域的壁垒实在太高、牢不可破，所以他们主要从推理环节入手：可以针对大模型推理开发某种高度特化的“推理专用卡”，在性能或性价比上超越英伟达，而且已经有人做到了。这些观点经常被翻译为中文，不过翻译者经常有意地把其中的海外芯片创业公司的名字偷换成A股上市公司（或某家非上市公司），从而达到不可告人的目的。

遗憾的是，至少在现在，以及可见的未来，英伟达在推理方面的壁垒仍然十分牢固。或许它在推理方面的壁垒不如训练方面那么高，但只要竞争对手攻不破，就没什么区别。对于绝大部分大模型开发商以及云计算厂商而言，AI算力建设只能以英伟达为核心（买不到的情况除外），不论是训练还是推理算力。在展开分析这个问题前，让我们先简明回顾一下训练和推理的区别：

训练，就是指创造和升级AI模型（包括但不限于大语言模型）的过程。训练环节涉及海量的数据，耗时极长，对算力的并发性需求极高，往往要一次动用几千张到上万张规模的显卡集群。专门为训练做过优化的显卡俗称“大卡”，其最典型的例子是英伟达A100、H100和B100。
推理，就是利用现有大模型解决用户需求的过程。我们每向ChatGPT提一次问题，就启动了一次推理流程。单次推理处理的数据规模往往较小，因此对算力硬件的要求不如训练那么高。英伟达专门为推理做过优化的显卡俗称“中卡”，例如A20、L40；一些高端消费级显卡（俗称“小卡”），例如RTX3和4系列，也可以用于推理。

英伟达的竞争对手，从AMD到英特尔，从Groq到华为，每天都在异口同声地陈述同一个观点：推理的门槛没有硬件那么高，英伟达赖以生存的CUDA软件生态以及显卡互联技术在推理端的作用有限，所以在推理端替代英伟达完全可行。事实又是如何？关键要看企业客户，包括OpenAI这样的大模型开发商以及亚马逊、微软这样的云计算平台商怎么看——毕竟是它们的技术团队和采购人员做出了显卡采购的决定，而不是社交媒体网友。如果我们仔细分析一下主要科技企业今年以来的显卡采购决策，就会惊讶地发现，事实与英伟达的竞争对手所鼓吹的完全相反：

AMD和英特尔的“AI加速卡”（其实就是推理卡）卖得都不怎么样。其中，AMD的旗舰产品Instinct MI300的单季度销售额不足10亿美元，2024年全年的目标也仅仅是卖出40亿美元；英特尔的旗舰产品Gaudi 3就更惨了，2024年全年的销售目标不足10亿美元。把这两家的AI硬件销售额加起来，恐怕都只有英伟达“中卡”销量的一个零头。在2024年一季度财报发布会上，苏妈承认AMD的推理卡目前不存在供给瓶颈，客户可以随时提货；隔壁的英伟达几乎所有产品线则都处于紧缺状态。换句话说，大部分客户宁可等上一两个季度，也宁可买英伟达而不是AMD的产品。

与此同时，在硅谷出现了一个新的趋势：尽可能多地采购“大卡”，把推理和训练一起交给“大卡”去做。例如，OpenAI将使用较新的H200承担GPT-4o的推理任务；苹果通过鸿海采购了数万张H100，估计主要将用于推理工作；Meta计划在2024年之内新增35万张H100，其中很大一部分将用于推理；亚马逊采购的首批3万多张GB200“超级芯片”显然将同时用于训练和推理。这充分说明，所谓“英伟达在推理方面的护城河不深”的说法是何等荒谬！如果上述说法是真的，那么除非大厂钱多烧得慌，否则完全没有必要采购单价极高、供应非常紧张的英伟达“大卡”承担推理任务。当然，这些大厂也会采购一点点AMD或英特尔的产品作为补充，每次都会引发后两者的欢呼雀跃，恨不得让全世界都知道。

为什么硅谷大厂要花更多的钱去采购专为训练优化的“大卡”承担推理任务？这既是出于技术考虑，也是出于综合成本考虑。简而言之：

“大卡”的显存更大、显存带宽更高，适合运行参数规模巨大的大模型。目前主流大模型的参数规模均已突破万亿，而消费者使用的一般是“蒸馏”过的、几十亿到几百亿参数的精简版模型。“中卡”“小卡”足以运行这些精简版模型，但大型企业客户可能需要运行万亿规模参数的超级模型，那就非用“大卡”不可了。
“大卡”的爆发性输出能力更高、延迟较低，适合执行高度时效性的推理任务，例如自动驾驶、国防军工、金融交易等场景。最近流行的“超长文本推理”，对显存的要求较高，“大卡”处理起来也更得心应手。
在AI算力中心当中统一使用“大卡”，有助于降低硬件复杂度，实现较高的算力弹性和通用性。像OpenAI这样的公司，一年之中有几个月处于训练期，在此期间可以把自家“大卡”全部用于训练以保证速度，租用外部算力满足推理需求；训练间歇期则可以少租外部算力，让自家“大卡”转而从事推理。
“大卡”，尤其是B100/B200这种新款产品，最先应用了英伟达的最新技术，从而有利于后续升级和再利用。哪怕几年之后技术突飞猛进，旧款“大卡”退下来还可以做别的工作，而旧款“中卡”“小卡”可能就没有价值了。

上述四条原因，前两条是技术上的，后两条则是成本和管理上的。就像我的一位从事AI技术工作多年的朋友所说：“其实是经济性让大家投票选择了英伟达，这就是市场的力量。”由于上面是在英伟达自家的不同产品线之间做类比，我甚至都没有提到CUDA软件生态——过去十八年，全球上百万开发者为CUDA积累了太多的开发工具和代码，AMD的ROCm根本无法与之匹敌，英特尔就更是不值一提了。

现在假设有一种推理卡，不知道为什么竟能实现远高于英伟达的性能（可能是上帝显灵），而且竟能克服缺乏CUDA生态的麻烦（这次上帝得多受累一点），并且纸面价格显著低于英伟达（这一点极难做到），它也不一定能打败英伟达。客户首先要考虑通用性：专门为大语言模型推理“特化”的芯片，大概率无法拿来执行任何其他任务，从而带来了更高的机会成本。英伟达是“通用计算GPU”概念的提出者，“通用”概念就意味着灵活性和弹性。远的不说，最近几年我们就能看到许多鲜活的案例：

2021-2022年，为了进一步训练内容推荐算法，以符合欧盟消费者隐私要求，以及支持新推出的Reels短视频功能，Meta（原名Facebook）采购了大量英伟达“大卡”；当然其中一部分也是为“元宇宙”研发准备的。Meta还成为了2022年发布的H100显卡早期最重要的客户之一。ChatGPT横空出世之后，Meta立即将手头的算力资源投入生成式AI研发，迅速成为全球开源大模型领域的第一平台。扎克伯格本人亦承认，生成式AI浪潮来的时机很巧，Meta非常幸运——其实他更应该感谢英伟达显卡的通用性和普适性。

2019年前后，中国的“云游戏”产业处于井喷阶段，资本市场对其有很高预期。包括阿里、腾讯和电信运营商在内的云计算大厂纷纷采购了大批英伟达RTX显卡（初期主要是Turing架构，后来亦有Ampere架构）组建刀片服务器。虽然云游戏在国内没火起来，但是高端RTX显卡具备张量核心(Tensor Core)，从而拥有一定的推理能力。在美国芯片法案的阴影之下，国内厂商采购推理卡越来越困难，当年积累的“云游戏卡”扮演了雪中送炭的角色；尽管它们的推理效率肯定比不上L40等“中卡”，但有总比没有好。

（附带说一句，为什么英伟达的消费级显卡也装备了Tensor Core? 因为它对于光线追踪技术的实现扮演着不可或缺的角色，而光线追踪能够大幅提升游戏画面的感染力。显卡处理游戏内部光影效果的方式，与处理大模型数据的方式，在硬件和数学层面是互通的。人类如果没有强大的游戏产业，就很难建设强大的人工智能产业。）

我们不知道生成式AI产业的下一步走向是什么：Transformer架构（现在所有大语言模型的基础）诞生至今才七年多，第一个百亿参数的大模型诞生至今才不到五年。就像许多学者指出的一样，生成式AI有可能并不是实现通用人工智能(AGI)的必由之路。但是无论如何，有一点是确定的：未来的世界需要大量算力，尤其是并行的、以多核GPU为基础的算力。当生成式AI浪潮突然降临之时，许多科技大厂都把自家的英伟达显卡从自动驾驶、推荐算法训练、图形渲染等任务迅速转移到了大模型相关任务；这进一步加深了它们对英伟达的信任和依赖。

此时此刻，全球科技巨头用于扩张算力的资本开支，普遍达到了每年几百亿美元的水平；坊间甚至传闻微软打算在一年之内耗资1000亿美元建设新的数据中心。花了这么多的钱，它们肯定不希望自己买到的算力仅能用于非常狭窄的领域，不管其纸面性能好坏、价格高低。所以那些高度特化的推理卡，注定只能在巨头的算力军备竞赛当中扮演次要角色；AMD能扮演的角色可以更重要一点，但离英伟达这个主角还是差得很远。

就在本文撰写的过程中，我的另一位从事AI行业多年的朋友告诉我：“我们最近开始采购另一家公司的显示芯片了。它的硬件规格是合格的，但是软件适配是大问题，需要踩很多的坑。英伟达的CUDA开发团队应该比硬件设计团队的规模要大得多，它的发布会上几乎全是软件生态工具，例如GPU虚拟化、一键部署。缺少了英伟达的软件生态，我们就要自己雇人去实现这些能力。生态就是成本！没有生态就要产生额外的开发成本。”当然，鉴于国内现在越来越难买到英伟达的数据中心级显卡，厂商只能硬着头皮承担成本；在有选择的情况下，它们几乎不会有动力这样做。

至于五年、十年乃至二十年后呢？那就是另一个问题了。通用计算GPU这个概念诞生至今也只有十八年，NVLink技术也只有十年历史。在长期，一切都是可以改变的，但是一切改变只能来自勤奋耕耘和咬定青山不放松的精神。请记住，2013年，当黄仁勋操着半生不熟的普通话在北京国家会议中心的舞台上说“请给我一个机会介绍英伟达”的时候，他已经到处推销自己的通用计算理念长达七年了；而他还要再等待整整九年，才能看到一切开花结果。当时嘲笑他的人，和现在认为可以轻易替代他的人，很可能是同一批人。