作者:NCL
排版:Mengxi
像我们的研究《
拾象 AI 投资图谱:大浪已至,展望 Infra 百亿美金公司机遇
》中提到的那样,大语言模型会带来交互和软件的大范围创新,而大语言模型技术上的突破是以硬件算力和云计算能力的提升作为土壤的。本研究会对 LLM 所能带来的增量硬件市场进行预估,并详细分析价值流向和行业竞争格局。
我们对硬件市场规模做出了以下估算:在短期内(3 年),大语言模型将成为超过 1 亿人的智能助手,对应着数十亿美元的市场;在中期内(3-7 年),大语言模型的访问次数有望达到谷歌搜索当前的水平,对应着数百亿美元的市场;从长期来看,大语言模型可能会取代 20% 的软件交互,对应着上千亿美元的市场。值得注意的是,尽管语言模型的不断扩展能够带来惊人的能力、显著增加对云端推理的需求,但我们仍需密切地关注模型压缩技术的发展,因为如果端侧推理能被实现,市场对于硬件的需求将被显著压缩。
在行业格局上:
1. 现有巨头在短期内可以拿走 90% 的蛋糕,其中 NVIDIA 用 GPU + NVLINK + Inifiniband 的组合近乎垄断了市场;
2. 云计算巨头作为最大的硬件买单方,也和 Startup 一样是新技术最主要的探索者,尤其是谷歌 GCP 近些年在 TPU 和光互联上的技术积累让其有望挑战 NVIDIA 的组合,其 TPU 相比同代 NV GPU 已有 20% 的性能提升,Startup 难以用类似的技术路径超越 TPU;
3. 在 NVIDIA 和 Google 已摘走行业低垂果实的背景下,Startup 被迫放弃通用性追求垂直场景下的性能,这在模型技术路线未完全收敛的情况下风险较高,使得一级投资者面临的风险骤增,也让投资组合配比显得尤为重要。
在详细比较市场空间和竞争、必要性、用户粘性和技术成熟度后,我们认为推理芯片和片间通讯是最值得投资的一级赛道,其中 ASIC 和 CXL 赛道的投资预算应该接近,In-Memory Computing 的投资预算应该控制在 ASIC 仓位的一半以下。投资机构应尽力撮合 ASIC 和 CXL 公司的合作,算力的可扩展性才是挑战巨头的关键。投后管理中应密切关注模型压缩技术,ASIC 很可能会不被需要,而 CXL 还能继续改造计算中心的互联架构,这并不和 LLM 高度绑定。
ASIC 指的是为垂直场景特殊优化的芯片,相较于 GPU 会有性能和成本优势,但是能够运用的场景比较单一,比如为自动驾驶模型开发的 ASIC 用来训练 GPT 模型时性能会不如 GPU。
CXL 是一种片间通讯的协议,就像 Ethernet 协议允许多台电脑互相传输信息,CXL 能让 CPU/GPU/ASIC/内存之间传输信息。
In-Memory Computing 可以理解成技术成熟度低,但是性能上限极高的 ASIC 芯片,但因为技术路径的颠覆性,通常和 ASIC 分开讨论。
以下为本文目录,建议结合要点进行针对性阅读。
01 行业背景
02 市场空间
03 AI 分布式计算
01.
行业背景
大语言模型能力遵循规模理论 Scaling Law(即模型能力随着训练计算量增加而提升)。这意味着大语言模型的准确度会随着模型的参数量、语料训练量和训练计算量的增加而提升。比如 OpenAI 的研究人员就曾通过实验发现,模型回答的偏差随着模型参数量、语料训练量和训练计算量的增大而减少。此外,谷歌的研究员也曾发现随着模型计算量的增加将能带来思维链、数学推理等能力的涌现。此外,有消息透露微软 Azure 将独占 NVIDIA 全年 H100 产能,可以看到大模型厂商正在囤积算力,想要进一步扩大模型训练的计算规模来探索模型能力的边界。
Source: Scaling Laws for Neural Language Models
Souce:Emergent Abilities of
Large Language Models
大模型训练和推理需要大规模分布式计算(即让数台服务器协同完成计算,从而可以在有限的时间里完成复杂的工程)。大模型的复杂主要体现在内存存储和计算量规模大,并有持续扩展的需求。具体来说,在大模型训练的过程中,一个参数通常需要 20 bytes 的内存存储,所以像 GPT-3 这样 175B 参数的模型需要约 3500 GB 的存储空间,这至少需要 44 张 A100 80G 显卡 (~5.5 台 HGX A100 服务器) 协同训练,但即使这样也至少需要 785 天才能完整在 3000 亿的语料库上训练一次,这显然无法满足日新月异的迭代需求。为了缩短训练时间,通常大模型团队会采用更多的设备来扩展算力,比如在 Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM 这篇论文里,描述了微软团队用 1000 张 A100 复现初代 GPT-3 的训练只需要 34 天,而用 384 张则需要 90 天。下图展示了越多的显卡数量将能快速压低训练时间。
分布式计算严重受限于内存性能和互联性能,单卡算力的性能提升幅度远大于内存和连接设备的提升。在过去二十多年中,单芯片的算力提升了百万倍,而内存的读写速度和网络设备的互联速度却只提升了不到百倍,这导致了当前芯片在没有特意优化的情况下有大量的算力浪费:比如有博主在用单张 A100 在没有进行算法优化时训练 GPT-2 时,受限于内存读取效率,算力使用效率只有 35.7%;OpenAI 在 10000 张 V100 的服务器集群上训练初代 GPT-3 ,受限于内存读取和互联通信效率,算力使用效率只有 20%。
在介绍分布式计算的价值链路之前,我们先来分析一下这次大语言模型会给分布式计算带来多大的增量市场。
02.
市场空间
计算方法
大语言模型的市场空间取决于计算量 (FLOPs)、算力成本 (Cost/FLOP) 和算力使用效率 (Utilization),而计算量可以分为训练 (Training FLOPs) 和推理 (Inference FLOPs) 阶段讨论。通常在技术成熟初期,训练计算量要显著大于推理计算量,但长期来看,推理计算量将占大头。
训练计算量取决于模型的参数和训练语料规模,GPT-3 单次训练的理论计算量为 3.15 × 1023FLOP。GPT-3 的参数量是 1750 亿,用了包含 3000亿 token 的语料库,按照行业通用估算公式来看,GPT-3 训练需要的算力为 6 × 1750 × 108 × 3000 × 108 = 3.15 × 1023FLOP,这是理想情况下(没有算入多次尝试和摸索的训练)的理论训练所需算力。
训练过程中每个参数在每个单词上训练都会消耗 6 FLOP 的算力,算法中包含正向传播和反向传播,正向传播需要 2 FLOP (一次乘法和一次加法),反向传播需要 4 FLOP 。
模型的推理计算量取决于参数规模和问答的长度,ChatGPT 当前每日计算量规模在 9.8 × 1023 FLOP 左右。首先,推理过程中涉及用户的 Prompt 长度和模型的回答长度。通过集合 Sam 的 Twitter 和一些公开信息,我们通过以下假设推测出 ChatGPT 当前每日计算量规模在 9.8 × 1023 FLOP 左右,已经是 GPT-3 单次训练计算量的 3 倍以上。
• 单次请求的平均长度为 500 token,单每条回复的平均长度为 3000 token。我们将多个短问答合并成长问答;
• ChatGPT 参数量为 200B 左右;
• ChatGPT 有 7000 万 DAU,用户日均问答次数为 10 次。
如果确认用了 MoE 可以直接除 20,因为有人说根据延迟来看是 10B 的参数量。MoE 技术后文会补充。
以行业当前最通用的 A100 作为参考,当前训练的算力成本为 2.14 × 10-18 $/FLOP,算力成本可能将每 2.5 年下降 35-50%。我们这里参考了 AWS 提供的由 8 张 A100 组成的服务器,这台有着 8 × 312 = 2496 TFLOPS 算力的云服务器每小时收费 19.22 美元(如果预订了一年的使用权),这意味着算力成本为 2.14 × 10-18 $/FLOP。H100 更是采用了台积电最先进的工艺,以 1.8 倍的售价提供 3 倍的算力性能,训练算力成本将在两年内快速降至 1.3 × 10-18 $/FLOP。不过尽管 Nvidia 设计和发布新芯片的频率为两年一次,碍于生产能力限制,H100 才刚开始大规模铺开,我们将保守地用 2.5 年作为更新频率。换言之,算力成本将每 2.5 年下降 40-50%。
值得指出的是训练阶段通常采用 FP32 和 BF16 的混合精度训练,但是微软和谷歌都在计算算力使用效率时以芯片的 BF16 性能为基准。
大模型在训练中的关键问题是提升大服务器集群的算力使用效率(Model FLOPS Utilization),谷歌和 NVIDIA(帮助 Azure 和 OpenAI) 都能做到 50-60%。OpenAI 和微软 Azure 将大服务器集群外包给 NVIDIA,而 NVIDIA 团队里有大量的人才在研究分布式计算的软硬件优化,将原本 OpenAI 用 V100 训练初代 GPT-3 时的 21.3% 算力效率提升到了 50% 左右,中间涉及 NVLINK 的性能从 300GB/s 提到了 600GB/s,也有 NVIDIA 团队为 LLM 定制的分布式算法。而谷歌也开发了定制的芯片和服务器集群,并在过去的 5 年里通过和自己的搜索和 AI 业务结合,不断地迭代软硬件的使用效率,当前能够在 5400 亿参数的 PaLM 上达到 57.8% 的算力使用效率。
市场空间
当前市场主导力量正在从训练需求切换到推理需求, ChatGPT 年均推理成本在 15 亿美元左右(以日活 7000 万计算),并且正在高速增长。中期如果能替代谷歌的话推理成本将高达 1200 亿美元,长期如果需要替代 20% 的软件交互可能需要近 2 万亿的推理成本。不过,市面上有大量的软硬件优化方式将能在未来三年内将成本压低至当前的 1/10 或 1/100,甚至随着模型压缩技术的成熟,大模型将能根据需求压缩成小模型,在边缘设备上运行。
1. 早期训练市场
按照上文的计算公式,我们可以推测出初代 GPT 的单次训练成本为 2500 万美元左右,但现在使用 A100 训练则降至 75 万美元。由于硬件和软件的协同优化,训练大模型的单次成本迅速降低。不过这里考虑到 OpenAI 和 Azure 良好的合作关系会在计算资源上给予折扣(预定三年的价格),而初创公司则会因浪潮来临而面临更高的计算成本。我们在下表中计算了各大主流模型的训练成本。
在早期训练基座模型阶段,每 4000 张 A100 需要 8 亿美金的初始硬件投入,云计算的租赁成本大概是每年 1.4 亿美元 (一年预定价格);时间成本是只有 4000 张卡需要 4 年才能复刻,显卡每翻倍就能缩短一半;OpenAI 现在大概率有 2 万张 A100。
4096 张卡是 512 台 DGX 服务器,需要 8 亿美元左右,如果去租的话大概要 1.4 亿美元一年。用 4000 张卡从零搭建到训练出 ChatGPT 这个程度大概要 4 年,这里考虑了后发因素,因为 OpenAI 用了一两万张卡摸索了 4 年才弄出来。如果初期投入多一些,比如投入 16 亿买 8000 张可以缩短一半,因为团队手上可以分工摸索不同的技术,这是一个时间和成本的 Trade-off。有了这些数大家去打听国内大厂的研发团队的规模和投入大概心里就会有一些概念了。现在 OpenAI 有 2 万张以上 A100,按照云计算价格估就是一年 7 亿美元以上。
2. 当下推理市场
通过整理一些公开信息,我们推测 ChatGPT 的单条推理成本为 0.007 美元 ( /3500 token),每日推理成本为 420 万美元,年推理成本为 15.3 亿美元左右。
如果确认使用 MoE,可以把成本除以 20,因为有人说根据延迟来看是 10B 的参数量,最新的 ChatGPT 价格也印证了这点。如果采用自建,可以把成本乘 0.8。
估算假设:
• 单次请求的平均长度为 500 token,单每条回复的平均长度为 3000 token;
• ChatGPT 参数量为 200B 左右;
• ChatGPT 有 7000 万 DAU,用户日均问答次数为 10 次。我们将多个短问答合并成长问答;
• 介于 Azure 对 OpenAI 的支持,提供的算力成本可能是预定一年价格的 1/2;
• 经过 NVIDIA 和 OpenAI 对 A100 服务器集群的优化,FLOPS Utilization 现在能达到 50% 左右,但服务器并不会全天满载,且会有冗余的计算资源,所以假设 Utilization 是 25%。
3. 中期市场 - 替代搜索
假设以谷歌每秒处理 32 万次请求的频率看,每日推理成本将是现在的 400 倍,也就是每年需要 664 亿美元的推理成本,而 BingGPT 需要 1233 亿美元。谷歌当前搜索年研发投入 1000 亿,营收 1600 亿。
如果需要 ChatGPT 完全替代谷歌搜索,有两种方式:
A. 直接用当前 ChatGPT 的形式:直接利用模型的知识积累回答,所以没有额外的成本;
B. 当前 BingGPT 的形式:根据搜索最前面 K 个选项的内容生成回答,所以这在现有的搜索业务上直接增添了语言模型的推理成本,微软称其为普罗米修斯模型。
B 方案显然比 A 方案能提供更实时的回答,但是缺点也显而易见,这需要额外几倍的推理成本,且当前的搜索业务要持续投入和优化。
如果 K = 5,则 B 方案推理成本是 A 方案的 2 倍左右。
4. 长期市场 - 替代部分软件交互
ChatGPT Plugin 和 Toolformer 的出现再次提升了用户对 GPT 能力的想象上限,尽管我们认同 Elon 说的 Vision 是人类最高带宽的信息渠道,但仍将会有一部分软件交互用语言替代。如果我们假设 20% 的软件交互可以用大语言模型替代,这将需要 GPT 每秒处理 840 万次请求,也就是每年需要 1.74 万亿美元的推理成本。不过随着模型压缩技术成为了非云端提供的服务,最终价值也可能被端侧设备芯片捕获(比如现在长期闲置但性能强劲的 iPhone/Mac 芯片)。
预测假设
1. 全球有 50 亿智能手机用户,并且每人日均查看 63 次手机(Stastita 和 Techjury 数据);
2. 我们根据全球日均电脑使用时长为 2.85 小时和移动设备使用时长为 3.77 小时来推测,每人日均查看电脑 48 次。当前全球有 10 亿台电脑用户左右 (Comparitech 和 Stastita 数据);
3. 我们假设 20% 的交互可以用大语言模型替代;
4. 由于当前难以估计各个软件在输入输出过程中需要多少 Token ,暂时先用当前的 3500 Token。
成本优化
我们认为三年内有多个技术升级能让推理成本降至当前的 1/10 甚至 1/100。
• 长期来看,芯片制程的升级每 2.5 年能让计算成本降至 1/2;
当前市场上的主力芯片为 2020 年发布的 A100,而新一代的 H100 算力成本为 A100 的 1/2(1.8 倍售价,3 倍性能)。
• Sparse 就是参数中有很多 0,在推理早期阶段忽略这些 0 就可以节省大量的计算量;
• Prunning 就是故意将一部分参数变成 0,放弃很小的精度就能节省很大的计算量;
• Quantization 就是在推理阶段放弃一定的精度,用 Int8 可以让芯片有两倍性能;
• MoE 就是推理时用一小部分参数,就像人看图片也只用一小部分脑子;
谷歌训练的 1.6 万亿参数的模型,有 2048 个分区,训练和推理时计算量都很小。
• Early Exit 是近期新出的,decoder 环节不需要每一层都计算完毕就能推理出下一个词,预计可以节省 1/3。
03.
AI 分布式计算
AI 分布式计算的市场主要由芯片、内存和通信设备三部分组成,分别占市场份额的 55-75%,10-20% 和 10-20%;售卖分布式计算系统主要有两种商业模式,服务器供应商(Server Venders)和云计算服务商(Cloud Computing Service)。这里较大的占比范围是因为当前 GPU 和 ASIC 中通常包含着内存和互联成本,比如 A100 的成本中有 80GB 显存和 Nvlink 的成本,所以这里预留了统计口径。
(点击可查看大图)
对每一个可商业化的模块,我们将从下面几个维度进行评价:
1. 市场空间和前景:在分布式计算系统里能占到多少预算,随着大语言模型发展是否能吃到更多的预算;
2. 市场竞争:当前巨头和 Startup 之间的竞争情况;
3. 技术成熟度:近两年有各种新颖的技术方案,但离工程实现和部署还有距离。既然 Timing 是投资的重要因素,要对技术的成熟时间有一个预期;
4. 必要性:是否为刚需,随着技术演变需求是否明确且稳定;
5. 用户粘性:客户使用后,是否有较高的迁移成本和生态忠诚度。
主要结论
1. LLM 对于硬件厂商来说是一块新增需求,预计短期内(3 年内)有数十亿美元,中期(3-7 年)有小百亿美元,长期为上千亿美元。传统硬件巨头目前在芯片、内存、互联都拿走了 90% 以上的蛋糕,云计算巨头不只是最大的买单方,也和 Startup 一样是新技术最主要的探索者。但市场规模和市场格局和模型压缩技术密切相关,如果模型能够在端侧完成大部分推理,那么市场空间将快速下降,主要受益者将转向 Apple、Tesla 和 TSMC(提供 Chiplet 制造)。
2. 从下表来看,最值得布局 Startup 的方向是推理芯片、片间通讯和训练芯片:其中推理芯片因为有着极吸引人的预算份额和不错的技术成熟度将成为最值得投资的板块,片间通讯因为有良好的市场竞争环境和技术成熟度略优于训练芯片赛道。
均值使用 B-0, A-1, S-2 后求平均计算,
如果是 A/B 或 A→B 则为 0.5。
3. 看好模型进一步扩大能带来用户体验质变的应该投云端 ASIC 芯片、 CXL 设备和 In-Memory Computing。首先 In-Memory Computing 可以理解成技术成熟度低、上限更高的 ASIC 芯片。ASIC 芯片只有和 CXL 设备相辅相成,才能对 NVIDIA 和 Google TPU 形成有效挑战,因为算力的可扩展性才是它们关键的壁垒。换言之,云端 ASIC 芯片有望成为 CXL 设备最大的客户,投资机构也应该尽量撮合投资组合中的公司。
4. 如果看好模型压缩技术能带来端侧推理的应该投资 In-Memory Computing 的一级公司,避免端侧 ASIC。因为 NVIDIA、 Apple 和 Tesla 有着端侧顶尖的芯片和生态,端侧 ASIC 公司将很难找到足够大规模的 C 端客户。但这些巨头目前在 In-Memory Computing 并没有太多技术积累,所以 In-Memory Computing 极高的性能上限是它们的端侧芯片难以替代的。
Chiplet 技术已经成为了现代芯片设计公司必须掌握的技能,巨头通过多年的研发和收购,已经开始形成技术壁垒,可能不会再像前两年去收购大量 Chiplet 的初创公司来弥补技术短板,不过 ASIC 初创公司可能会和 Chiplet 公司合作甚至合并。
5. In-Memory Computing 的主要问题是当前的技术成熟度太低,建议投资预算占比不能过高。上一轮以自动驾驶概念出来的存算一体芯片公司目前都面临着性能还不到商用门槛,主要客户因为资金短缺砍订单等问题,我们认为这样的情况可能在大语言模型上再次发生,所以最终的投资预算占比建议不能过高。
6. 就算没有 LLM,CXL 也将重塑云计算架构,建议投资预算占比应与芯片持平甚至略高。芯片赛道低垂的果实已被 NVIDIA 和 Google 摘取,芯片初创公司被迫选取追求性能放弃通用性的技术路径,这将导致目前能投的芯片初创公司都无法放大钱,但 CXL 路径下巨头还没有无法企及的技术和市场壁垒,初创公司的生长环境更好。就算没有 LLM,CXL 也将在云计算中心逐步替代网关系统,而不像芯片公司会被绑死在行业里。
售卖分布式系统
售卖分布式计算系统主要有两种商业模式,服务器供应商(Server Venders)和云计算服务商(Cloud Computing Service)。服务器供应商负责采购各类配件后,根据客户需求设计并组装成分布式系统,交付后也会持续提供技术支持和售后,比如在交付时为客户安装机器学习所需的各种开发套件,并持续提供更新。云计算则是采购各类配件后组装成分布式系统,通过互联网按需为客户提供计算资源、存储和应用服务,实现灵活、可扩展的IT基础设施并降低成本。通过查阅几家主要的服务器供应商和云计算服务商的财报,服务器供应商的 Operating Margin 通常在 10-15% 附近,而云计算服务商的通常在 20-30% 左右,可以推断出自建分布式系统成本将在5年左右低于云计算成本。
Server Venders
Source: Server vendor market share worldwide
from 2009 to 2021, by quarter
Server Vendors 主要由传统的服务器制造商 (75%) 和 ODM Direct 厂商 (25%) 组成,总年营收规模在 1000 亿美元左右;市场仍留了 25% 的空间给各类垂直场景下的小公司/初创企业,AI 场景下的 Server Vendors 会有一定的空间,但终局来讲可能算是赚个辛苦钱(10-15% 的 Operating Margin)。Server Vendors 是一个历史悠久的行业,国外的 Dell、HP(后被国内的 H3C 收购)和国内的 Inspur 和 H3C 等巨头已经占据了整个市场的 50%,他们通过规模效应和库存管理等壁垒牢牢把控着市场;近些年像是 NVIDIA 这类芯片厂也会直接售卖 DGX 这类服务器,里面包含了 NVLINK 和 NVIDIA Mellanox 的网口等互联设备,从而为客户挖掘芯片的最佳性能,我们把这种绕过传统 Server Venders 的直销模式叫做 ODM Direct。
1. 代表公司
Ⅰ. 巨头:Dell、H3C、 Inspur、NVIDIA;
Ⅱ. 初创企业:Lambda、Sambanova、Cerebras。
Lambda 这家初创公司选择成为了 AI 垂直场景下的 Server Vender,而各类初创芯片厂(如 Cerebras 和 Sambanova)也会围绕自己的芯片打造服务器。
2. 商业价值评价
这个赛道的 Startup 并不是很值得布局,面对 Dell 这类传统巨头的情况下可能有一些小生意机会,但无法做成规模较大的事业。
• 市场空间和前景:S,市场规模可观,做成规模效应后 Operating Margin 能到 10-15%,如果短期出现供应短缺甚至可以赚取暴利。
• 市场竞争
Ⅰ. 巨头:S,AI 带来的新兴需求不仅令巨头们手中囤积的显卡短期实现增值,并且整个市场的需求量也显著增加;
Ⅱ. Startup:B,留给初创市场空间不大,可能只是个做小生意的机会。由于这是一个强规模效应的行业,如果在终局里会直面和 H3C、Dell 和 NVIDIA 的竞争,很可能因没有成本优势而规模不大,或利润率不高。
• 必要性:A,Server Vendors 通常比普通公司有更稳定的供货渠道和价格优势,对分布式系统设计有丰富的经验,所以大部分公司会跟 Server Venders 购买设备。
• 用户黏性:B,Server Vendors 几乎没有黏性,但是如果服务器中的芯片是 Vendor 家的就有,只不过这算芯片的黏性。
• 技术成熟度:S,极为成熟,甚至可以说是没有很高技术壁垒。
Cloud Computing
云计算服务商巨头基本已经寡头垄断(前四大占 70%),年总营收在 2000 亿美元左右;微软正在通过独占 NVIDIA 的 H100 算力挑战 AWS,AWS 通过和开源社区 Hugging Face 合作来应战,谷歌也利用 GCP 资源孵化多家 LLM 初创公司(如 Anthropic)。在过去十年里,AWS、Azure、GCP 和 Alibaba Cloud 是云计算浪潮中最大的受益者,他们四家就占据了这个 2000 亿美元市场的 70%。在 LLM 的新浪潮中,Azure 斥巨资签下了 NVIDIA H100 的早期所有产能,辅助 OpenAI 探索 LLM 模型的极限,再引领并鼓励 SaaS 公司将 Azure OpenAI API 整合进其生态中,试图在 LLM 云计算市场达成绝对领先,反攻 AWS;作为回应, AWS 和最大的 AI 开源社区 Hugging Face 合作,鼓励社区追赶 OpenAI;Google 多年投入在软硬件生态(Tensorflow 和 TPU)上,现在 GCP 不仅能为内部(Google Brain 和 Deepmind)开发大模型提供支持,也能让谷歌投资大模型初创团队(如 Anthropic)时作为 Bargaining Edge。
1. 代表公司
Ⅰ. 巨头:AWS、Azure、GCP;
Ⅱ. 初创公司:Lambda。
2. 商业价值评价
这个赛道的 Startup 并不是很值得布局,想从战斗力最强的互联网巨头抢走他们核心业务可能并不现实,所以这里主要是利好传统云计算巨头。
• 市场空间和前景:S,尽管当前大家都在训练自有大模型时倾向跟 Server Venders 买服务器,但当 SaaS 行业大规模整合大语言模型后,云计算的 Scalability 特性是不可或缺的,所以随着行业生态的成熟,未来云计算的空间极大。
• 市场竞争
Ⅰ. 巨头:A/S,对于 AWS 和 GCP 来说,很多客户都为了 OpenAI API 迁移到 Azure 上,所以他们原先的积累受到严重挑战。但对于 Azure 来说,对 NVIDIA 显卡和 OpenAI 的垄断正吸引着不少公司转向 Azure;
Ⅱ. Startup:B,留给初创公司的市场空间很小,因为竞争对手是战斗力极强的互联网巨头,他们都把云计算的战略地位放得很高。
• 必要性:A/S,当前大部分公司都处于训练基座大模型的阶段,可能会倾向于自建或跟 Server Vender 买;但当推理端需求起来后,比如大部分 SaaS 都会调用模型时,云计算的 Scalability 是必要的,也就是在未来必要性极高。
• 用户黏性:A,云计算的黏性不算特别强,因为不像数据库公司一样有不同的格式,大量 SaaS 从 AWS 转移到 Azure 也说明转移的可行性。但是由于各家芯片(NVIDIA、Google TPU等)有不同的优化方法,转移需要修改大量代码,但并不是完全不可能,只不过这算芯片的黏性。
• 技术成熟度:S,极为成熟,因为互联网巨头都把云计算的战略地位放得很高,研发投入极大。
芯片
(点击可查看大图)
芯片可以拆分成三种需求:系统芯片、训练芯片和推理芯片。
• 系统芯片指的是用来运行系统的 CPU,这是当前计算机架构下的必备品,不过在 AI 服务器的预算占比正在大幅下降,现在通常只有 5% 左右,本文将不过多讨论这部分;
• 训练芯片指的是能够高效完成模型训练的芯片,当前绝大部分训练都用 GPU 和保守型 ASIC 完成。但如果技术路径收敛且需求可持续,激进型 ASIC 和 RISCV 芯片将能有机会抢占这个诱人的市场;
• 推理芯片指的是能够高效推理出预测结果的芯片,当前绝大部分训练都用 GPU 和保守型 ASIC 完成。当前所有的推理都在云端完成,但未来随着模型压缩技巧的成熟(如蒸馏等),可能能在笔记本甚至手机上推理。
训练需求可能随着模型训练量扩大带来的边际回报降低而最终会有上限,而推理需求随着推理成本的下降和更多 SaaS 集成而指数上升,推理需求未来将占算力大头。
尽管 OpenAI 仍在不断扩大模型参数量和训练量来增强模型能力的边界,但是 GPT3.5 到 GPT4 的能力提升在不少场景下并不明显,这便是 Scaling 带来的边际回报降低的体现,所以未来训练需求可能会触顶。但推理需求随着推理成本和门槛的下降,比如当推理成本下降几个数量级后,几乎所有的 SaaS 都逐渐集成大语言模型,又或是将模型压缩后允许在电脑和手机上运行,这都将导致推理量的指数上升。简言之,推理需求在未来将占大头。
投资推理芯片需要预判未来主流推理在云端还是边缘端完成,当前微软和 OpenAI 押注云端,苹果想以隐私为名开拓边缘端。当前大语言模型主要依赖云端服务器(如 Chatgpt 依赖 Azure)完成推理,但有消息称苹果内部很看重这项技术,希望能用到其性能强劲的笔记本上,这样可以利用用户的数据在本地推理,所以他们极为关注模型压缩相关的技术。显然,这也将对投资决策造成影响:
对于二级视角看,终局是云端意味着利好 Nvidia 和 Azure,边缘端意味着利好苹果和台积电(因为需要性能强劲的 SoC 芯片);对于一级视角看,云端意味着利好 ASIC 和 RISCV CPU(后面将会介绍),边缘端将利好 FPGA 和类似 Apple Silicon 的 SoC 芯片研发公司;当然也可以同时押注两边,只是要及时调整市场空间的预期,并根据模型压缩技术的进展及时调整仓位。
Training Chip
Training Chip 市场 80-90% 的算力来自 GPU,10-20% 的算力来自 ASIC 芯片,初创公司的机会在颠覆型 ASIC 和 RISCV CPU。
GPU 是当前 AI 训练的主要算力来源,IDC 估计当前有 90% 的 AI 服务器采用 GPU, 而 Nvidia 和 AMD 在 GPU 的市占率分别高达 80% 和 20%。ASIC 能够获得剩下的 10% 的市场,并随着技术成熟可能达到 20% ,主要可以分为保守路线和激进路线:
云计算厂商(比如谷歌和 AWS)通常采用保守路线,将 GPU 中有的图像和高精度(FP64 通常占芯片面积的 10-20%,但训练和推理并不需要高精度)计算单元砍掉,在相同成本下塞入更多的中低精度计算单元;
初创公司则采用激进的芯片设计,比如 Graphcore IPU 提出近存计算,通过缩短内存到计算单元的距离来达到更强的性能和能耗比,但这需要四五年左右的硬软件迭代周期,才能有让客户满意的表现。FPGA 在工业界基本被用来测试 ASIC 的设计合理性,并且性能天花板较低,能耗比较差,一般不会有客户愿意放弃用 GPU 转向 FPGA。
初创公司不仅需要技术剑走偏锋才能在 ASIC 立足,也需要大模型长期技术路径稳定,所以知道顶尖 AI 模型公司的路线图对芯片公司有重要意义。
首先谷歌和亚马逊的 AI ASIC 芯片已经有 5-7 年的探索,完成了硬件和软件生态的初步完善,同时多年云计算积累了分布式计算的经验,初创公司想以类似的思路竞争恐怕不是一个好的选择。初创公司需要提出颠覆式创新芯片设计,并能获得两次流片和五年以上的融资额,才有足够的技术积累能够和巨头的 GPU 和 ASIC 竞争。由于芯片产品长回报周期的特点,需要对顶尖 AI 模型公司的路线图有深度判断再决定架构才能赢在 5 年后,否则当主流技术路线切换后,所有的积累将不再有优势,市场再次被 GPU 和保守型 ASIC 夺走。
1. 代表公司
Ⅰ. 巨头:NVIDIA、AMD、AWS、Azure、GCP、Intel;
Ⅱ.初创公司:Cerebras、Graphcore、Sambanova、Tenstorrent、BIREN、Enflame。
2. 商业价值评价
• 市场空间和前景:A
在当前大部分选手都在训练大模型的背景下,Training Chip 的市场潜力很大,这也从 NVIDIA A100 和 H100 的供不应求中可以看出。但后续模型格局可能会固定下来,不再有大量的 Startup 想自己训练新基座模型,所以后续的增长将会稳定下来。
• 市场竞争
Ⅰ. 巨头:S,当前 NVIDIA GPU 和 Google TPU 无疑是极为受益的,他们都有足够的软硬件壁垒(如 CUDA 和 Tensorflow 深度支持)抵抗竞争对手的产品。首先,NVIDIA 获得了 Azure 和 OpenAI 这两个客户的超大订单,而 TPU 被谷歌内部的各个模型团队大范围采用,他们都有足够的一线反馈来不断迭代产品。经过多年的积累, AMD 的 MI200 当下仍不能对 H100 形成有效竞争,各类保守型 ASIC Startup 也难以证明自己性能和可扩展性能超过 Google TPU;
Ⅱ. Startup:A/B,初创公司的机会集中在颠覆性 ASIC,因为激进的设计使得性能可以比 GPU 和 TPU 好上 3-8x,而 TPU 只比 GPU 好 25% 左右。所以当技术路径稳定下来后,OpenAI 和微软可能将逐渐切换成 ASIC 芯片,比如微软极其重视和 Tenstorrent 的合作,未来逐渐丰富自己算力供给渠道。
• 必要性:S,芯片是这次大语言模型浪潮的最直接受益者,确定性极高。
• 用户黏性:S,芯片的用户黏性极强,因为芯片的软硬件生态涉及天量兼容性和性能问题,不太会轻易切换。
• 技术成熟度:
Ⅰ. 巨头:S,NVIDIA 的 GPU 和 Google TPU 已经完全成熟,并能每两年稳定迭代;
Ⅱ. Startup:A/B,Graphcore、Cerabras 经过五年以上的打磨,软硬件都已初步完善。Tenstorrent 等较新的初创企业还需要较久的研发周期。
Inference Chip
Inference Chip 市场 80-90% 的算力来自 GPU,10-20% 的算力来自 ASIC 芯片,初创公司的机会在颠覆型 ASIC,未来边缘端设备(如 Apple Silicon)也可能因模型压缩技术有广阔市场。
尽管推理时允许更低的精度来做推理,但是市面上仍只有 GPU 有足够的算力规模和推理速度能够满足 ChatGPT 这款 Superapp 的需求。所以和 Training Chip 类似,90% 的算力仍来自 GPU,10% 的算力来自 ASIC(主要是 Google TPU)。
有苹果员工指出公司内部对大语言模型很重视,正在密切关注模型压缩技术,从而能够在 Apple Silicon 上离线运行,这样能够确保用户隐私。但当模型的长期技术路径固定后,ASIC 公司完全可以根据 Transformer 的特性开发芯片:比如 Graphcore IPU 提出近存计算,通过缩短内存到计算单元的距离来显著提升读写效率,从而达到更强的性能和能耗比;Tenstorrent 作为 RISCV 芯片的领军公司,可能正帮助微软定制为 Transformer 特制的芯片。
1. 代表公司
Ⅰ. 巨头:NVIDIA、AMD、AWS、Azure、GCP、Intel;
Ⅱ.Startup:Cerebras、Graphcore、Sambanova、Tenstorrent、BIREN、Enflame。
2. 商业价值评价(当前大部分芯片可以同时用作训练和推理,所以下面只打分不点评了)。
• 市场空间和前景:S
随着成本的下降和生态的繁荣,未来推理需求将指数增长,大语言模型可能会替代用户和软件 20-40% 的交互,远超训练需求。
• 市场竞争
Ⅰ. 巨头:S;
Ⅱ. Startup:A/B。
• 必要性:S
• 用户黏性:S
• 技术成熟度
Ⅰ. 巨头:S
Ⅱ. Startup:A/B
内存
在内存方面,可以分为内存制造商和基于内存来进行存内计算开发的厂商;存内计算指的是直接在内存里完成二维或三维矩阵运算,这样可以避免计算单元与存储单元速度不匹配的问题。由于当前市面上有多种材料的内存,所以也会有根据不同材料开发的存内计算。
Memory Producer
在内存方面,最主要的内存介质已被寡头垄断,他们也正在积极探索新内存介质,Startup 机会极低。首先,市场上最主要(96% 的市场份额)的内存/显存产品线是 DDR/GDDR/HBM,这个市场已经被美光、三星和海力士寡头垄断;另一种昂贵且小众(4% 的市场份额)的超高性能内存产品线是 SRAM,这个市场则被 Cypres、Renesas 和 ISSI 寡头垄断;还有 MRAM 等新型内存,它有着比 SRAM 更高的性能和存储密度,不过还需要时间解决产能和落地问题,也有不少论文证明基于这些产品可以制造出高性能的存内计算产品,尤其适合 AI 的训练和推理。
1. 代表公司
Ⅰ. 巨头:Micron、Sumsung、SK Hynix、Crypres、Renesas、ISSI、Intel、TSMC、Everspin;
Ⅱ. Startup:暂无。
2. 商业价值评价(当前大部分芯片可以同时用作训练和推理,所以下面只打分不点评了)。
• 市场空间和前景:A
内存市场能够占据服务器集群的 10-20% 预算,规模可观,并将随着模型增大而继续增长。
• 市场竞争
Ⅰ. 巨头:S,DRAM 或 SRAM 市场都被被三家公司寡头垄断,都有 80% 以上的市占率;
Ⅱ. Startup:B,显然 Startup 在 DRAM 或 SRAM 这样一个寡头垄断的市场成长起来极为困难,但是近十年有一些新技术路径有潜力替代一部分小众需求。历史上内存市场发生过多次价格的巨幅波动,总会导致一些选手(曾有东芝、三菱等巨头)破产或出售业务,并不像芯片企业一样有较稳定的价格环境。
• 必要性:S,无论是当前的计算机架构还是未来的技术路径,内存基本上是必需品。
• 用户黏性:B,当前内存的主要基于同一套接口开发,客户可以根据性价比自由切换,几乎没有粘性 。
• 技术成熟度:
Ⅰ. 巨头:S,DRAM 和 SRAM 已经极为成熟了,但是在 MRAM 等新型内存上还没有找到较大的落地场景;
Ⅱ. Startup:A/B,Startup 基本只能参与新型内存市场,当前还比较难到 PMF,或是技术还不太成熟。
In-Memory Computing
存内计算可以看成技术成熟期极长的 ASIC 芯片,其性能和能耗比理论上限远高于 ASIC 芯片。针对不同的应用场景,当前有大量公司基于不同的介质开发存内计算设备:追求极高性能的场景用 SRAM 和 MRAM;追求性价比和大规模采用的 DRAM、FLASH。当前大部分存算一体设备都针对 Deep Learning 开发,所以可以处理大量矩阵计算,只不过业界实践只有边缘端小模型的推理,并没有在服务器集群里完成多芯片互联的案例,所以当下是远不能训练大模型的。
1. 代表公司
Ⅰ. 巨头:Sumsung、TSMC;
Ⅱ. 初创公司:Syntiant、MYTHIC、Upmem、HOUMO、Tensorchip、Witmem。
2. 商业价值评价
• 市场空间和前景:AIn-memory Computing 本质上跟 ASIC 芯片类似,所以其市场应为服务器集群预算的 5-13%。如果能够基于公司自己生产的新型内存,那么还能捕获额外的 10-20%。
• 市场竞争
Ⅰ. 巨头:A,三星在 DDR 和 MRAM 都有顶尖的生产能力,也有数年基于 DRAM 和 MRAM 的存内计算研发,只是目前的技术还没能找到足够大的客户和市场;
Ⅱ. Startup:A/B,当前有 MYTHIC 和 Tensorchip 已经生产了一些小产品,算是不错的技术和工程积累,但也还没找到合适的大市场。
• 必要性:B/A,在和生态完善且性能强劲的 GPU 和 ASIC 竞争时,存内计算会在未来很长一段时间里都难以成为必需品,但是等存内计算的技术成熟后,预计能替代很多 ASIC 的市场。
• 用户黏性:S,和芯片类似,切换芯片可能意味着更换大量的硬件设备和代码,所以一旦采用便不会轻易切换。
• 技术成熟度:
Ⅰ. 巨头:B,当前存内计算缺乏通用开发环境和编译器支持,并且也没有多芯片互联方案,所以还不能形成足够大的算力集群,用来训练和推理 LLM 模型;
Ⅱ. Startup:B,同上。
互联
服务器集群之间的互联方式可以分为两种,一种是沿用数十年的服务器之间用网关系统进行互联,另一种是近十五年兴起的片间互联。
NVIDIA GPU 恐怖的市占率离不开其对于互联板块的布局,NVIDIA 旗下的 Mellanox Infiniband 和 NVLINK 都是行业最顶尖的产品。NVIDIA 为 Azure 和 OpenAI 提供的顶尖服务器集群(DGX 系列)由 H100 + NVLINK + Infiniband 组成,这是当前可量产的最佳组合。对于 AMD 这样的芯片公司来说,他们既没有传统的网关技术,也没有大服务器集群的片间互联技术,使其 GPU 没有在可扩展性上的竞争力;而对于 AWS 和 GCP 这样的云计算巨头来说,尽管他们有自研的网关技术,但是在片间互联方向比较羸弱。
Server-to-Server
网关巨头基本把控了 Server-to-Server 的主要市场,而高性能数据中心可能会自建网关系统,Startup 的生存空间不乐观。
博通生产了市面上 70% 的交换机芯片,思科用自研的芯片制造出了市面上 70% 的交换机,NVIDIA 19年收购了 Mallanox,这家公司是唯一一家 Infiniband 互联协议设备商,尤其适合有极高性能需求的服务器集群。AWS 和谷歌因为有云计算业务,分别开发了 Graviton 交换机芯片和 Apollo 光网线交换机,从而自己把控互联环节的设备。值得指出的是,Google Apollo 采用光网线互联,能节省数十亿美元的设备升级成本和电费,并且有极好的扩展性。既然主要市场都被巨头占据,而大客户倾向于自建,可能 Startup 的生存空间不太乐观。
1. 代表公司
Ⅰ. 巨头:NVDIA、Broadcom、Marvell、Cisco、Credo、Google、AWS;
Ⅱ. 初创公司:Aruba、Innovium。
2. 商业价值评价
• 市场空间和前景:A → B
互联设备能拿走服务器集群的 10-20% 的预算,虽比不上计算芯片的预算,但是还是很可观的。如未来模型规模进一步扩大,会大幅增加高性能网关设备的需求。长期来看, Chip-to-Chip 技术成熟后,网线只被用来远程管理服务器集群,不再占用大量预算。
• 市场竞争
Ⅰ. 巨头:S,这个数十年的行业已经基本被巨头垄断,现在更多的讨论是巨头之间的竞争,比如思科的芯片开始对博通的芯片形成有力挑战;
Ⅱ. Startup:B,给初创公司留下的市场并不多,并且博通和思科都有十年以上的技术壁垒和专利,初创公司的机会不大。
• 必要性:S → A,当前服务器集群必须通过网关设备来互联计算信息,但当 Chip-to-Chip 的技术成熟后,可能会被用在远程管理等场景。
• 用户黏性:A,交换机行业由于数十年大家都基于同一套接口标准制造,所以用户可以在不同家的交换机或网线接口之间切换,也允许牌子的混用。
• 技术成熟度:
Ⅰ. 巨头:S,网关设备已经有数十年的历史,技术上极为成熟;
Ⅱ. Startup:S,网关设备已经有数十年的历史,技术上极为成熟。
Chip-to-Chip
片间通讯主要有两种技术:一种是针对超大规模远距离互联的 CXL,其有潜力在未来替代大部分数据中心内的网线;另一种是针对超近距离互联的 Chiplet,有望重塑单台服务器或电脑内部芯片之间的互联方式。
CXL 是 AMD、Intel 等芯片公司试图模仿 NVLINK 提出的开源协议,他们将基于此协议开发交换机、互联芯片和连接线等硬件设备,未来也完全可能被 AWS、GCP 等云厂商自研设备中接入;
Chiplet 则是允许芯片公司根据需求自己设计如何堆叠摆放多个芯片,再主要由 TSMC 制造,比如 Apple 的 M1 Ultra 芯片就是依靠 Chiplet 技术将两块 M1 MAX 结合在一起。
CXL 赛道目前没有明确的巨头,技术三五年内肯定能商用;Chiplet 赛道的设计主要由芯片巨头自己把控,制造也基本交给 TSMC 生产,所以 CXL 赛道的 Startup 更值得关注。CXL 于 2019 年被提出,所以巨头也只有两三年的技术壁垒,并有不少 Startup 前两年已经开始研发;此外,预计 2026 年基于 CXL3.0 协议的交换机能够量产,逐步改造现有的云计算中心的构成,所以技术成熟度较高。Chiplet 帮助 AMD 和 Apple Silicon 取得了重大成功,NVIDIA 和 Intel 也开始推出利用 Chiplet 优化后的产品,但由于这个技术跟芯片设计高度重合,制造环节也由 TSMC 垄断,所以 Startup 参与的空间的较小。
1. 代表公司
Ⅰ. 巨头:TSMC、AMD、NVIDIA;
Ⅱ. 初创公司:Syntiant、MYTHIC、Upmem、HOUMO、Tensorchip、Witmem。
2. 商业价值评价
• 市场空间和前景:B → A
尽管当前还没有商用产品,但有望逐渐替代掉大部分计算中心的网关需求,也就是属于互联设备的 10-20% 预算。所以将能从 B 逐渐变到 A。
• 市场竞争
Ⅰ. 巨头:A,NVIDIA 和 TSMC 是当前片间通讯中位置最好的公司,但是 NVIDIA 并不售卖自己的 NVLINK 给其他重要芯片公司,TSMC 也只牢牢把控着 Chiplet 的制造环节;
Ⅱ. Startup:A,当前基于 CXL 协议的交换机、交换机芯片、光互连模块等重要环节还没有明显的赢家,并且博通、AMD 等公司的技术研发壁垒不明显,比如 Ayar Labs 等初创公司有不逊于 NVLINK 的潜力。
• 必要性:S,显然分布式计算必须要增强芯片间的互联性能,所以在模型不断增大的背景下是必要的。未来就算是在边缘端进行推理,也需要 Chiplet 技术来增强端侧芯片的性能。
• 用户黏性:S,片间互联设备的黏性极高,由于技术方案繁多,各家公司之间的硬件兼容性极差,所以一旦切换就意味着巨大的沉没成本。
• 技术成熟度:
Ⅰ. 巨头:A,AMD 和 Intel 的顶尖服务器 CPU(Genoa 和 Sapphire Rapids)已经装入 CXL 1.1 的接口,预计未来的产品将大规模采用;
Ⅱ. Startup:A,Xccon 已经生产出了 CXL 2.0 的 Switch,预计在 26 年能量产 CXL 3.0 Switch。
Reference
1. OpenAI 研究人员实验
https://arxiv.org/pdf/2001.08361.pdf
2. 20 bytes 的内存存储
https://arxiv.org/abs/2201.11990
3. 微软团队用 1000 张 A100 复现初代 GPT3 的训练
https://arxiv.org/pdf/2104.04473.pdf
4. 微软在计算算力使用效率时以芯片的 BF16 性能为基准
https://arxiv.org/pdf/2104.04473.pdf
5. 谷歌在计算算力使用效率时以芯片的 BF16 性能为基准
https://arxiv.org/pdf/2204.02311.pdf
6. NVIDIA 团队为 LLM 定制的分布式算法
https://arxiv.org/pdf/2104.04473.pdfhttps://arxiv.org/pdf/2104.04473.pdf
7. 5400 亿参数的 PaLM
https://arxiv.org/pdf/2204.02311.pdf
8. 普罗米修斯模型
https://www.linkedin.com/pulse/building-new-bing-jordi-ribas/
9. Stastita 和 Techjury 数据
https://www.statista.com/forecasts/1143723/smartphone-users-in-the-world#:~:text=After%20the%20fifth%20consecutive%20increasing,increasing%20over%20the%20past%20years.
https://techjury.net/blog/how-much-time-does-the-average-american-spend-on-their-phone/
10. Comparitech 和 Stastita 数据
https://www.comparitech.com/tv-streaming/screen-time-statistics/
https://www.statista.com/forecasts/1146269/computer-households
-in-the-world
11. Source: Server vendor market share worldwide from 2009 to 2021, by quarter
https://www.statista.com/statistics/269396/global-market-share-held-by-server-system-vendors-since-1st-quarter-2009/
12. IDC 估计当前有 90% 的 AI 服务器采用 GPU
https://www.idc.com/getdoc.jsp?containerId=US48288721
13. Nvidia 和 AMD 在 GPU 的市占率分别高达 80% 和 20%
https://www.techradar.com/news/nvidia-crushes-amd-with-80-gpu-market-share-ahead-of-ampere-launch
14. 其他参考链接
https://arxiv.org/pdf/2001.08361.pdf
https://sunyan.substack.com/p/the-economics-of-large-language-models