助力生成式AI，AMD Instinct MI300系列产品创新上市

作者：微型计算机杂志发布时间：2023-12-18

当地时间12月6日，美国圣何塞，AMD成功召开“ADVANCING AI”大会，向与会者分享了大量为AI而设计的相关产品。其中的重点就是MI300系列的详细情况。该系列主要包括由1460亿个晶体管组成的CPU+GPU加速器MI300A和专为数据中心市场打造、提升AI算力的GPU产品MI300X，以及与之配套的ROCm 6软件环境。

其中Instinct MI300X GPU加速器已经发展到第三代。从2020年的为加速FP64及FP32计算而设计的第一代CDNA架构的MI100，到为高密度计算而设计、具有领先的内存容量及带宽的第二代CDNA架构的MI200系列，再到今天重点改进了统一内存架构、人工智能数据格式性能以及节点内网络性能的第三代CDNA架构的MI300系列。

MI200系列已经投产好几年了，在大型HPC部署中获得了巨大的成功。最值得注意的是Frontier超级计算机，这意味着它仍然是超算500强名单上的超级计算机所采用的解决方案。

人工智能的高速发展，带来对硬件和软件的巨大需求，AMD为此提供的解决方案是MI300系列：同时面向HPC应用和AI加速的MI300A，和为加速生成式人工智能性能而设计的MI300X。

AMD的Instinct战略有四个支柱。首先是它在现有的硬件和软件架构之上很容易迁移，兼容以往的规范且不需要重新设计服务器，软件层面也已经让上游相关合作伙伴进入这一全新的人工智能框架，大多数人工智能客户可以实现代码开箱即用。

其次是性能领先且无需妥协，在各种各样的生成式人工智能用例中提供领导力表现。第三是开放，承诺整个生态系统开放。最后则是专注于用户，无论从未来的路线图还是架构，都为用户的成功提供支撑。

接下来一起来了解全新一代为AI加速而设计的第三代CDNA架构，采用3D封装，为性能和能效而优化，为HPC和AI而设计的专用加速引擎。该架构分为两种结构，一种是APU结构，为HPC而设计的MI300A，另一种则是基于GPU结构，MI300X。

我们先来看MI300X的相关信息。MI300X是顶级生成式AI加速器，采用CDNA3架构，拥有192GB HBM3内存，内存带宽高达5.3TB/s，内部互联的AMD Infinity Fabric带宽最高可达895GB/s。

MI300X拥有8个XCD，总共304个AMD CNDA3架构计算单元，4个IOD模块，8个HBM3堆栈，配备256MB的AMD Infinity Cache技术（L3 Cache），采用3.5D封装。

来看更在细节的结构。MI300X总共拥有304个CDNA3架构计算单元，配备了192 GB的HBM 3内存，12个HBM 3颗粒，每秒能提供5.3TB的带宽。这是关键的区别，AMD有八个堆栈，而竞争对手的堆栈较少。从封装来看，MI300X拥有多层堆栈，采用了包括3D hybrid bonded铜混合键合工艺和2.5D硅interposer工艺。I/O Die上则堆叠了256MB AMD Infinity Cache（L3），各模块之间用7条x16规格的第四代AMD Infinity总线连接。

接下来是引人注目的竞品对比环节。相比竞争对手，MI300X的HBM3内存更大，内存带宽更高，在高性能计算方面的FP64和FP32理论峰值算力都远超竞争对手。在AI加速的能力上，MI300X也基本上是对手的1.3倍。

不仅如此，AMD还提供已经完全符合工业标准设计的，采用8个MI300X整合起来的整体解决方案。整体的HBM3内存容量高达1.5TB,Infinity Fabric带宽可达896GB/s，BF16/FP16算力可达10.4PFLOPS。

和竞争对手的HGX解决方案相比，AMD的MI300X平台方案的HBM3内存容量是对手的2.4倍，FP16和BF16的算力是对手的1.3倍。其它规格则在伯仲之间。

在一些主流大模型的AI内核加速表现上，MI300X能够领先竞品10%-20%。

如果以8张GPU卡的单服务器来比较，推理性能则可以领先40%到60%。

MPT模型的训练方面，单服务的8张MI300组合能够和竞争对手并驾齐驱。

单系统和竞争对手的性能对比总结。

AMD董事会主席兼CEO Lisa Su女士展示8x GPU套件。

朋友圈环节，OEM和集成商合作伙伴包括了主流的HP、DELL、Lenovo以及GIGABYTE等各大品牌。

秀肌肉环节则是展示AMD与Top超算500强前25强、绿色超算前10强之间的合作。

当地时间12月6日，美国圣何塞，AMD成功召开“ADVANCING AI”大会，向与会者分享了大量AI相关产品的最新资讯。其中的重点，就是MI300系列的详细情况。该系列主要包括由1460亿个晶体管组成的CPU+GPU加速器MI300A和专为数据中心市场打造的提升AI算力的GPU产品MI300X，以及与之配套的ROCm 6软件环境。

其中，MI300A是世界上首款APU模式的加速器，可以同时兼顾为AI和HPC应用优化，GPU部分同样采用CDNA3架构，拥有128GB的HBM3缓存，不同的模块分别采用5nm和6nm制程，Chiplet封装。

从第三代Infinity架构到第四代Infinity架构，CPU和GPU之间变得更加融合，采用统一内存架构，效率更高。

和MI300X相比，MI300A的XCD为6个，总共228个CNDA3架构计算单元。另外的空间安排了3个CCD的总共24个Zen4核心的x86架构CPU。

同样采用了包括3D hybrid bonded铜混合键合工艺和2.5D硅interposer封装工艺，被AMD称之为3.5D封装。但I/O Die的第四代Infinity Fabric总线减少到4条x16规格，然后对应新增了4条x16规格的PCIe 5总线。

MI300A的HPC性能基本上是对手的1.8倍，AI性能，包括TF32/FP16/BF16/FP8/INT8，都与竞争对手基本相当。

APU的优势在于解锁了新的性能和功能模式，CPU和GPU采用统一内存、共享的Infinity Cache、动态功耗调度，将更便于用户编程，是一个完整的系统级解决方案。

在OpenFOAM测试中，MI300A的性能甚至可以达到对手的4倍。

AMD声称MI300A每瓦峰值性能可以达到对手GH200(Grace Hopper，GPU+ARM架构CPU组合)的两倍。

MI300A在其他一些和H100对比的HPC性能测试也领先10%-20%。

将被用于美国劳伦斯利弗莫尔实验室的EI Capitan超级计算机。

目前MI300A的首批OEM和解决方案合作伙伴，包括HPEE、VIDEN、GIGABYTE和SUPERMICRO。