1530亿晶体管芯片发布，AMD正式叫板英伟达

作者：半导体行业观察发布时间：2023-06-14

在生成式AI浪潮的推动下，AMD也成为半导体市场的一个赢家。

根据最新的数据显示，自今年年初以来，AMD的市值大涨超过90%。如果将时间线拉长到五年，AMD的市值大涨超过660%。在这背后，除了文章开头谈到的生成式AI推动外，AMD所推动的基于ZEN架构CPU和专为数据中心专用GPU设计的CDNA架构产品，收购Xilinx和Pensando所获得的的FPGA和DPU，以及公司在Chiplet和3D V-Cache等技术的投入功不可没。

在今天于旧金山举办的产品发布会上，AMD CEO Lisa Su更是直言，我们仍处于 AI 生命周期的非常、非常早的阶段。而根据他们的预估，数据中心AI加速器的TAM到2027年将会达到1500亿美元，这意味着未来四年的CAGR将会超过50%。

正是在这样庞大市场需求的推动下，AMD带来了公司最新的，极具竞争力的AMD Instinct MI300系列的产品更多细节和更新。与此同时，AMD还带来了第四代的Epyc产品的更新，全面拥抱数据中心新时代。

1530亿晶体管的怪兽芯片，震撼登场

在AMD今天的发布会上，最受人关注的毫无疑问是公司的Instinct MI 300系列。因为在英伟达GPU把持的AI时代，大家希望AMD的这系列芯片能成为万亿芯片巨头的最强竞争者。而从Lisa提供的参数看来，MI 300系列的新芯片拥有极强的竞争力。

“人工智能是塑造下一代计算的决定性技术，也是 AMD 最大的战略增长机会。”Lisa Su强调。

对AMD有了解的读者应该知道，MI 300是他们在去年六月发布的，面向AI和HPC推出的一个重要产品。通过将CPU和GPU以chiplet的方式集成到一个芯片，并采用统一的内存架构，AMD希望这个市场能够给AI市场带来不一样的产品。

而在今日，AMD带来了公司的AMD Instinct MI 300X，一款专门面向生成式AI推出的加速器。和AMD Instinct MI 300A不一样，AMD Instinct MI 300X并没有集成CPU内核，而是采用了8 个 GPU chiplet（基于CDNA 3架构）和另外 4 个 IO 内存chiplet的设计，这让其集成的晶体管数量达到了惊人的1530亿。而为了缓解AI 大型语言模型 (LLM) 所面临的内存制约，AMD为这款芯片集成了192GB的HBM 3，其存储带宽也高达5.2 TB/s，可以处理的参数高达400亿。

作为一款对标英伟达H100的产品，如图所示，AMD Instinct MI 300X的HMB密度是前者的2.4倍，带宽则为前者的1.6倍。这让AMD的这颗产品在当前的AI时代竞争力大增。同时，据AMD方面透露，基于带宽高达896GB/s的AMD Infinity架构，我们可以将八个 M1300X 加速器组合在一个系统中，这样就能为开发带来更强大的计算能力,为 AI 推理和训练提供不一样的解决方案。据AMD介绍，该芯片会在今年三季度送样，值得一提的是，这种设计方法也是英伟达的 8 路 HGX 和英特尔Ponte Vecchio 的X8 UBB的选择。

如前面所说，AMD同期还推出了AMD Instinct MI300A，这是全球首款面向AI和HPC的APU，采用了集成24 个 Zen 4 内核、CDNA3 GPU 内核和 128GB HBM3的设计。换而言之，和MI 300X只是集成GPU内核不一样，AMD Instinct MI300A在设计上同时集成了CPU和GPU。与 MI250 相比，该产品提供了 8 倍的性能和 5 倍的效率。在半导体行业观察之前的文章《AMD最大的芯片：13个chiplet，1460亿晶体管》中，我们有介绍了这款初代的产品。

据外媒seminalysis所说，MI300A 凭借异构 CPU+GPU 计算成为头条新闻，而El Capitan Exascale 超级计算机正在使用该版本。他们指出，MI300A 在 72 x 75.4mm 基板上采用集成散热器封装的设计，适合插槽 SH5 LGA 主板，每块板有 4 个处理器，能有效地支付开发成本。seminalysis透露，该芯片已经出货，但真正在第三季度出现增长，这和AMD的说法也是一致的。他们进一步指出，标准服务器/节点将是 4 个 MI300A。不需要主机 CPU，因为它是内置的。

“这是迄今为止市场上最好的 HPC 芯片，并将保持一段时间。”seminalysis强调。

在发布这些面向AI应用芯片的同时，我们自然就绕不开AMD在软件方面的投入，这在很多分析人士看来，会是AMD在这个市场发力的一个短板。但从AMD总裁Victor Peng的介绍我们可以看到，他们也在这个市场订下了一个目标，那就是Open（software approach）、Proven（AI capability）和Ready（support for AI models）。

据Victor Peng介绍，AMD 拥有一套完整的库和工具ROCm，可以用于其优化的 AI 软件堆栈。与专有的 CUDA 不同，这是一个开放平台。而在过去的发展中，公司也一直在不断优化 ROCm 套件。AMD同时还在与很多合作伙伴合作，希望进一步完善其软件，方便开发者的AI开发和应用。

“我们在构建可与模型、库、框架和工具的开放生态系统协同工作的强大软件堆栈方面取得了真正的巨大进步。”Victor Peng说。

备受关注的Bergamo，如约而至

在介绍了MI300的同时，AMD在今天还介绍公司了另一款重头戏产品——新一代的EPYC。这是一系列为数据中心设计的芯片，到了第四代，AMD则准备了四条针对不同市场的产品线，当中更是包括了备受关注的、以云原生计算需求为目的的Bergamo系列以及代号为Genoa-X的第二代 EPYC 3D V-Cache CPU。

据Lisa Su 介绍，新一代的AMD EPYC Genoa 在云工作负载中的性能是英特尔竞争处理器的 1.8 倍，在企业工作负载中的速度是英特尔竞争处理器的 1.9 倍。Lisa同时谈到，绝大多数人工智能都在 CPU 上运行，而AMD 的产品在这方面性能方面比竞争对手的至强 8490H 具有绝对领先优势，性能高出 1.9 倍，效率也同样是竞争对手的1.8 倍。

在介绍了EPYC Genoa之后，Lisa着重介绍了公司的云原生产品Bergamo，一款让开发者期待已久的高密度服务器 CPU。据介绍，该芯片基于 AMD 的密度优化 Zen 4c 架构，提供多达 128 个 CPU 内核，比 AMD 当前一代旗舰 EPYC 9004 “Geona”芯片多 32 个内核。在AMD CTO Mark Papermaster看来，Zen 4c是AMD紧凑密度的补充，是公司核心路线图的新泳道，它在大约一半的核心区域提供与 Zen 4 相同的功能。

在分析人士看来，Zen 4c 和 Bergamo 设计的目的是提供尽可能多的计算资源，这也是AMD在摩尔定律失效的情况下，为满足尽客户需要继续增加核心数量需求而做出的一个决定。根据AMD提供的数据，全新的Zen 4C核心可以减少35%的面积，在每个CCD中可以提供的核心数量是Zen 4的两倍，在每个Socket中则能增加33%的核心。换而言之，Zen 4 每个 CCD 有 8 个内核，而 Zen 4c 每个 CCD 有 16 个内核。这也意味着 Zen 4c EPYC 芯片的 CCD 总体上少于其原始 Zen 4 芯片。

据AMD介绍，这次发布的Bergamo仅使用八个 Zen 4C Chiplet和中央 IO Chiplet，这和标准EPYC 芯片最多使用十二个 Zen 4 Chiplet设计略有不同。得益于这个设计，Bergamo成为了一个拥有820亿晶体管的设计，低于完整 Genoa 芯片中的约900亿个晶体管。这个更高的内核数量和更小的时钟速度设计使得该芯片比 Genoa 设计更节能——这是AMD定义该产品所专注市场时考虑的重要因素。AMD也透露，Bergamo在性能和效率方面的表现也非常出色。

依赖于其高核心密度和高能效，AMD 希望Bergamo在该领域能与基于 Arm 的Ampere、Amazon 和其他使用Arm 架构内核的公司竞争，AMD 也希望这款芯片会成为Intel于2024 年推出的，具备144核心的Sierra Forest的有力竞争者。

除了上述产品之外，AMD还带来了具有1.1GB L3缓存的“Genoa-X”EPYC 处理器。据了解，Genoa-X是 AMD 第一代 V-cache Milan-X的继任者。与上一代产品一样，AMD 正在使用缓存芯片堆叠为其他常规的 Genoa Zen 4 CCD 添加更多的 L3 缓存。在这种设计下，Genoa/Genoa-X 芯片上有 12 个 CCD，这允许 AMD 向芯片添加 768MB 的额外 L3 缓存。