当前位置:首页|资讯|生成式AI

助力生成式AI,AMD Instinct MI300系列产品创新上市

作者:微型计算机杂志发布时间:2023-12-18

原标题:助力生成式AI,AMD Instinct MI300系列产品创新上市

当地时间12月6日,美国圣何塞,AMD成功召开“ADVANCING AI”大会,向与会者分享了大量为AI而设计的相关产品。其中的重点就是MI300系列的详细情况。该系列主要包括由1460亿个晶体管组成的CPU+GPU加速器MI300A和专为数据中心市场打造、提升AI算力的GPU产品MI300X,以及与之配套的ROCm 6软件环境。

其中Instinct MI300X GPU加速器已经发展到第三代。从2020年的为加速FP64及FP32计算而设计的第一代CDNA架构的MI100,到为高密度计算而设计、具有领先的内存容量及带宽的第二代CDNA架构的MI200系列,再到今天重点改进了统一内存架构、人工智能数据格式性能以及节点内网络性能的第三代CDNA架构的MI300系列。

MI200系列已经投产好几年了,在大型HPC部署中获得了巨大的成功。最值得注意的是Frontier超级计算机,这意味着它仍然是超算500强名单上的超级计算机所采用的解决方案。

人工智能的高速发展,带来对硬件和软件的巨大需求,AMD为此提供的解决方案是MI300系列:同时面向HPC应用和AI加速的MI300A,和为加速生成式人工智能性能而设计的MI300X。

AMD的Instinct战略有四个支柱。首先是它在现有的硬件和软件架构之上很容易迁移,兼容以往的规范且不需要重新设计服务器,软件层面也已经让上游相关合作伙伴进入这一全新的人工智能框架,大多数人工智能客户可以实现代码开箱即用。

其次是性能领先且无需妥协,在各种各样的生成式人工智能用例中提供领导力表现。第三是开放,承诺整个生态系统开放。最后则是专注于用户,无论从未来的路线图还是架构,都为用户的成功提供支撑。

接下来一起来了解全新一代为AI加速而设计的第三代CDNA架构,采用3D封装,为性能和能效而优化,为HPC和AI而设计的专用加速引擎。该架构分为两种结构,一种是APU结构,为HPC而设计的MI300A,另一种则是基于GPU结构,MI300X。

我们先来看MI300X的相关信息。MI300X是顶级生成式AI加速器,采用CDNA3架构,拥有192GB HBM3内存,内存带宽高达5.3TB/s,内部互联的AMD Infinity Fabric带宽最高可达895GB/s。

MI300X拥有8个XCD,总共304个AMD CNDA3架构计算单元,4个IOD模块,8个HBM3堆栈,配备256MB的AMD Infinity Cache技术(L3 Cache),采用3.5D封装。

来看更在细节的结构。MI300X总共拥有304个CDNA3架构计算单元,配备了192 GB的HBM 3内存,12个HBM 3颗粒,每秒能提供5.3TB的带宽。这是关键的区别,AMD有八个堆栈,而竞争对手的堆栈较少。从封装来看,MI300X拥有多层堆栈,采用了包括3D hybrid bonded铜混合键合工艺和2.5D硅interposer工艺。I/O Die上则堆叠了256MB AMD Infinity Cache(L3),各模块之间用7条x16规格的第四代AMD Infinity总线连接。

接下来是引人注目的竞品对比环节。相比竞争对手,MI300X的HBM3内存更大,内存带宽更高,在高性能计算方面的FP64和FP32理论峰值算力都远超竞争对手。在AI加速的能力上,MI300X也基本上是对手的1.3倍。

不仅如此,AMD还提供已经完全符合工业标准设计的,采用8个MI300X整合起来的整体解决方案。整体的HBM3内存容量高达1.5TB,Infinity Fabric带宽可达896GB/s,BF16/FP16算力可达10.4PFLOPS。

和竞争对手的HGX解决方案相比,AMD的MI300X平台方案的HBM3内存容量是对手的2.4倍,FP16和BF16的算力是对手的1.3倍。其它规格则在伯仲之间。

在一些主流大模型的AI内核加速表现上,MI300X能够领先竞品10%-20%。

如果以8张GPU卡的单服务器来比较,推理性能则可以领先40%到60%。

MPT模型的训练方面,单服务的8张MI300组合能够和竞争对手并驾齐驱。

单系统和竞争对手的性能对比总结。

AMD董事会主席兼CEO Lisa Su女士展示8x GPU套件。

朋友圈环节,OEM和集成商合作伙伴包括了主流的HP、DELL、Lenovo以及GIGABYTE等各大品牌。

秀肌肉环节则是展示AMD与Top超算500强前25强、绿色超算前10强之间的合作。

当地时间12月6日,美国圣何塞,AMD成功召开“ADVANCING AI”大会,向与会者分享了大量AI相关产品的最新资讯。其中的重点,就是MI300系列的详细情况。该系列主要包括由1460亿个晶体管组成的CPU+GPU加速器MI300A和专为数据中心市场打造的提升AI算力的GPU产品MI300X,以及与之配套的ROCm 6软件环境。

其中,MI300A是世界上首款APU模式的加速器,可以同时兼顾为AI和HPC应用优化,GPU部分同样采用CDNA3架构,拥有128GB的HBM3缓存,不同的模块分别采用5nm和6nm制程,Chiplet封装。

从第三代Infinity架构到第四代Infinity架构,CPU和GPU之间变得更加融合,采用统一内存架构,效率更高。

和MI300X相比,MI300A的XCD为6个,总共228个CNDA3架构计算单元。另外的空间安排了3个CCD的总共24个Zen4核心的x86架构CPU。

同样采用了包括3D hybrid bonded铜混合键合工艺和2.5D硅interposer封装工艺,被AMD称之为3.5D封装。但I/O Die的第四代Infinity Fabric总线减少到4条x16规格,然后对应新增了4条x16规格的PCIe 5总线。

MI300A的HPC性能基本上是对手的1.8倍,AI性能,包括TF32/FP16/BF16/FP8/INT8,都与竞争对手基本相当。

APU的优势在于解锁了新的性能和功能模式,CPU和GPU采用统一内存、共享的Infinity Cache、动态功耗调度,将更便于用户编程,是一个完整的系统级解决方案。

在OpenFOAM测试中,MI300A的性能甚至可以达到对手的4倍。

AMD声称MI300A每瓦峰值性能可以达到对手GH200(Grace Hopper,GPU+ARM架构CPU组合)的两倍。

MI300A在其他一些和H100对比的HPC性能测试也领先10%-20%。

将被用于美国劳伦斯利弗莫尔实验室的EI Capitan超级计算机。

目前MI300A的首批OEM和解决方案合作伙伴,包括HPEE、VIDEN、GIGABYTE和SUPERMICRO。

软件环境

从云到端剑指AI

不仅仅是MI300X硬件系统强大,AMD为之准备的ROCm6软件环境也大大助力整套系统在生成式AI应用中的性能表现。

与硬件相呼应的是AMD的软件生态。AMD用于GPU平台的ROCm、用于XDNA AI引擎平台的Vitis AI以及用于EPYC CPU平台的zenDNN软件环境都相当出色。

从硬件底层到API到编译器和工具,再到库,再到大模型,ROCm软件环境应景为生成式AI做好准备,能够提供强大的性能表现。

OpenAI正在与AMD携手合作,将在Triton开源编程语言3.0版本中将MI300系列列入支持。

对于主流开源框架的支持也相当到位,大大减轻了开发难度。

对于Instrict系列来说,这一次的代际延迟优化高达8倍。

ROCm6.0的各方面优势都相当明显。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1