生成式AI当道,吃了第一口螃蟹的英伟达生而逢时,市值从去年的五千亿美元摇身一变成为与亚马逊、谷歌等齐肩的万亿巨头。
卖着三十万元一张的显卡,数着其他科技巨头收上来的钞票,连续打破预期的业绩印证了英伟达显卡在数据中心AI训练领域有多么受欢迎。
然而,有超额利润的地方总会招致竞争对手的冲击,更何况是日新月异的科技赛道,AMD、英特尔,甚至准备自研芯片的科技巨头跃跃欲试,英伟达的护城河,会由谁打破?
《福布斯》杂志评论称:“如果业界还有英伟达潜在的对手,那一定包括苏姿丰和她掌管的AMD。”
如何战胜芯片市场里的大Boss?
这道题AMD是最有发言权的,公司曾将英特尔在数据中心和PC的份额从将近垄断逼到剩下六成,靠的是集结了领先制程和架构、不断追赶的CPU产品。
这一次,面对势头正劲的英伟达,AMD能否再度赶超?
下一个万亿芯片巨头会是AMD吗?
01
最初两家企业在产品开发和市场选择上形成错位竞争,英伟达一直在图像显卡领域深耕,在高端芯片上处于领先地位。在向英伟达发起正面冲击之前,AMD曾凭借全新的Zen架构和台积电7nm工艺颠覆了PC和数据中心的CPU霸主—英特尔。
目前,英伟达在GPU领域一枝独秀,但AMD的产品架构要更丰富一些,在PC端同时布局了X86 CPU和独立GPU产品。相比传统CPU,采用集成显卡具备更强的图像渲染能力,这为AMD日后快速进入AI加速芯片领域竞争奠定了基础。
根据Statista,2023年第三季度PC端CPU市场中,AMD以35%的市占率仅次于英特尔;而在独立GPU,英伟达以超过七成的份额占据领先优势,同样居次的AMD今年第二季度的出货量占全球的17%。
总的来看,在GPU显卡领域,英伟达构建了领先算力和软件生态的强大壁垒,用户体验更高,在高端旗舰市场更具优势。
而AMD显卡不只追求图形渲染性能,更注重通用运算性能的提升,在入门级显卡性价比更高,但在开发者环境中,AMD采用的OpenCL实际远不如CUDA完善,软件不兼容的问题会影响AMD芯片的生态网络价值。
正因为AMD较早地完成了对两种处理器芯片的布局,在AI大模型加速普及,未来能够塞进各种智能终端硬件时,这种全面性给了AMD构建更加多元的AI产品矩阵的机会,包括融合 Ryzen AI 的 Ryzen 7040 系列 CPU、自适应数据中心平台 Versal AI、 Alveo 加速器、第四代 EPYC Genoa 处理器,以及目前公布即将上市的 Instinct MI300。
其中被认为最有希望挑战英伟达地位,重现16年对英特尔的成功突围,莫过于MI300。
AMD在CES 2023大会上推出了这款Instinct MI300加速器,是首款数据中心级的APU产品,AMD于2011年首创,简单来说是将CPU与GPU封装在一起,专门用于AI语言大模型训练及推理,对标的就是英伟达的Grace Hopper(Grace CPU + Hopper H100 GPU)。
作为一款能与H100在AI训练端匹敌的产品,从芯片架构、制程、算力、内存带宽上比较,这款MI300在规格及性能上十分接近英伟达的GH系列,但软件生态上的落后或暂时无法撼动英伟达在训练端的客户粘性。
首先看芯片架构,MI300是AMD首款结合了4 CPU与CNDA 3 GPU的产品,采用3D堆叠技术和Chipet设计,配备了9个基于5nm制程的芯片组,与英伟达 Grace Hopper的4nm制程(属台积电5nm体系)看齐。
MI300 晶体管数量达到1460亿,多于英伟达H100的800亿。MI300 配备了24个Zen 4 数据中心 CPU 核心和 128 GB HBM3 内存,并以8192位宽总线配置运行。
算力上,上代 MI250X的FP32算力达47.9 TFLOPS,虽已超越英伟达A100的 19.5TFLOPS,但其发布时间在英伟达之后。AMD并未公布MI300与H100的算力比较,我们只知道对比上一代的MI250X,MI300预计能提升8倍,能耗水平(TFLOPS/watt)将优化5倍,可以推断此次性能提升有望接近Grace Hopper水平。
内存带宽上,高容量及显存带宽是MI300的优势,这两项指标分别是英伟达H100的2.4倍及1.6倍,由于内存容量大幅提升,单颗MI300X芯片可以运行800亿参数模型。
而近期英伟达发布的H200作为对MI 300的回应,重点也在内存带宽上进行了升级。H200拥有高达141GB的显存,带宽则从3.35TB/s增加到了4.8TB/s,内存容量上超过了MI 300的128GB,带宽按照H100的1.6倍则稍微逊色于MI 300。
AI训练推理中随着模型参数提升带来的海量数据计算和传输,对GPU-CPU之间的数据传输速度提出了更高要求。
Grace Hoopper通过NVLink-C2C和NVLink Switch实现CPU-GPU和GPU-GPU互连,双方作为内存共享对等体可以直接访问对方的对应内存空间,支持900GB/s,高达150TB的高带宽内存访问,有效解决GPU大规模并行运算中“单节点本地内存不足”的痛点,优势要更突出一些。
AMD暂未公布MI300的传输带宽,但3D Chiplet架构使其内部CPU和GPU可共享同一内存空间,这样CPU执行计算的时候不需要先将数据进行复制,减少了内存带宽的占用。MI300使用的新一代存储芯片HBM3内存带宽约为819GB/s,与英伟达 NVLink C2C 900GB/s 带宽相近。
MI300在规格性能上或已十分接近英伟达领先算力的标准,但后者真正的杀手锏,是经过长期耕耘,积累了先发优势的CUDA生态圈,搭配芯片。其实参考微软操作系统和Office生产工具的组合就能够理解,一个不断完善的软件生态会提高用户粘性,形成正向循环,进一步的迭代同时提高了转换成本。英伟达全球CUDA开发者在2020年已经达到了200万,2023年实现翻倍。
AMD的生态是ROCm,主要客户是一些研究机构,相比CUDA已经能够广泛支持英伟达多条产品线,ROCm目前仅支持Instinct 系列GPU的部分SKUs,包括Radeon Pro W6800和 Radeon Pro V62。
CUDA从1.0版本开始即支持Linux和Windows,ROCm刚刚在今年4月宣布登录Windows,但仅支持Radeon Pro W6800,Radeon RX 6900 XT和 Radeon RX 6600,今年Q1公司宣布ROCm系统融入PyTorch 2.0框架,TensorFlow和Caffe深度学习框架也已经加入到第五代ROCm中,目前ROCm已经能对应到CUDA的部分内容了。但由于起步较晚,ROCm更多用于HPC(高性能运算),覆盖场景就没有CUDA那么全面了。
AMD的CEO苏姿丰表示,计划在扩产MI300系列芯片,相关样品已经送达客户进行测试,预计在2024年批量销售。随着ROCm平台工具链逐渐完善,生态端的短板在其他厂商的积极响应下或许能加快补齐。配合定价上将延续往日的高性价比风格,打开市场的难度大大减轻。
02
截至目前,英伟达与AMD都发布了各自最新一期的财报及业绩指引。
整体来看,两家的财报都有不少令人惊喜的表现。
英伟达当季营收181.2亿美元(同比+206%,环比+32%),大幅高于市场161亿美元的一致预期,也远超英伟达自身指引范围156.8亿到163.2亿美元。这主要得益于数据中心业绩的爆发增长,数据中心营收145.14亿美元,同比增长279%、环比增长38%,占总营收80%,远超市场预期128.2亿美元。
因为产品需求爆炸增长引发价格不断飙升,英伟达当季毛利率同比大幅提升了20.4个百分点,环比提升3.9百分点,达到了74%。
净利润方面,英伟达的当季GAAP净利润92.4亿美元,同比大幅增长1259%,环比大幅增长49%,当季Non-GAAP净利润100.2亿美元,同比及环比分别增长了588.2%、48.7%,均大幅超出市场Non-GAAP净利润84亿美元的一致预期。
相对的,AMD三季度实现营收58.00亿美元,同比增长4.22%,环比增长8.23%,略微高于此前指引的57亿美元。第三季度的净利润为2.99亿美元,同比增长353%,环比增长了10倍,但主要是前期基数太低所致。这是连续7个季度的净利润同比下滑之后,首次实现季度净利润的同比正增长,所以另投资者感到振奋。
第三季度AMD的毛利率为47%,同提升5百分点,环比提升1百分点,虽然也是吃到了AI芯片需求大爆发的红利,但显著不如红利的引领者英伟达。同时,这巨大的毛利率差距体现出的是在产品竞争力、议价能力的差距,尽管这几年AMD的显卡技术已经得到了很大的飞跃,但离英伟达还有很长的路要追赶。
实际上,英伟达的当季净利润是AMD30倍还多,两者差距,可以说已不再同一个频道上。
第三季度AMD数据中心营收15.98亿美元,同比下滑1%,营收占比28%;经营利润3.06亿美元,同比下滑40%,连续3个季度下滑。
不过,最让市场关心的是它们的未来业绩预期。
在业绩指引方面:英伟达给出了一个不大乐观的预期,预计FY24Q4营收约200亿美元(±2%)、GAAP和Non-GAAP毛利率分别为74.5%、75.5%。主要原因是在于预计四季度游戏业务将出现一定程度回落。尤其是在中国和其他受美国政府10月新出口限制影响的地区,销售量将大幅下滑。
而AMD的业绩指引相对让投资着更加惊喜,预计四季度营收为61±3亿美元,毛利率为51.5%(环比+4.5pcpt),CEO苏姿丰在电话会上表示,多家超大规模云计算公司已经承诺部署MI300,MI300将成为AMD史上最快营收过10亿美元的产品,并预计将在明年的销售收入达20亿美元。
因为强劲的业绩指引,AMD在发布业绩后,AMD股价周三收盘大涨9.7%,并在此后数日持续上涨。
有意思的是,从营收的地区结构看,两家的客户对象也较为重合。
以2022年算,英伟达有30.74%的营收来自美国本土,其次是中国台湾占比25.9%,中国内地(包括香港)的占比为21.91%,也就是说,英伟达的营收来自中国地区的共有47.81%,接近一半的比重。
不过,最新一期数据看,由于AI显卡需求大爆发叠加美国政府的监管政策限制对华出口,导致三季报来自美国本土的营收激增,同时根据业绩指引,四季度英伟达对华高端显卡出口会明显下滑,这个地区营收结构会出现很大变化。
不过,英伟达似乎很快找到了一个替代的方案,据CFO透露,英伟达正在为中国开发新的算力系列芯片—HGXH20、L20PCle和L2PCle,都是由H100该款而来,能够符合美国相关规定。
而AMD方面,来自美国本土营收占比34.1%,来着中国地区(包括香港和台湾)的营收共有32.1%,虽然占比不及英伟达,但近几年在中国的销售收入增速明显。
也就是说,英伟达的中国业务受限,或可能为AMD留下一个缺口,尽管AMD也受限于美国限制政策的影响,但多少算是一个潜在的可能在未来重新同台竞争的机会。
目前,AMD为了尽快弥补与英伟达的差距,正在大范围地快马加鞭收购AI及数据相关的资产,试图加快集齐AI拼图,为后续的数据中心业务铺路。
今年4月4日,AMD宣布斥资19亿美元收购DPU芯片厂商Pensando,以扩展其数据中心解决方案。
8月24日,AMD收购AI初创公司Mipsology,以加强人工智能推理软件能力。
10月11日,AMD宣收购人工智能开源公司Nod.ai,以增加在AI市场的竞争力。
同时,在研发方面,近几年AMD的研发费用率一直超过20%,并持续攀升。第三季度,AMD的研发投入15.07亿美元,同比增长17.83%,研发费用率达到了25.9%,同比也提升了32.9%(对应英伟达的为最新一期财报研发投入20.4亿美元,同比增长11.84%,研发费用率23.9%,同比提升12.58%)。
03 尾声
人工智能可以赋能智能终端的愿景正在实现,AI大模型为英伟达、AMD、英特尔等芯片厂商指明了下一个潜力市场,无论是数据中心还是PC、手机等终端,芯片升级需求和高价值量趋势将驱使他们加快研发和产品推出节奏。
虽然整体上来看,AMD在很多个方面与英伟达都还是有很大的差距,但它已经充分展现出来了不可忽视的增长潜力。
可以说,未来在AI加速芯片领域,英伟达和AMD龙争虎斗的局面将一直延续。(全文完)
媛子dayup 2024-12-18
正肽生化 2024-12-18