当前位置:首页|资讯|ChatGPT

国产化专题报告:中国如何实现Zettascale计算?

作者:宋忠豪爱游戏发布时间:2023-03-13

原标题:国产化专题报告:中国如何实现Zettascale计算?

(每日研选深度报告导读,请关注:报告派)

报告出品/作者:华泰证券、黄乐平、张皓怡

以下为报告原文节选

------

高性能计算是 AI 发展的基石,架构、工艺、先进封装是核心技术在今年 ISSCC(国际固态电路会议)上,AMD CEO Lisa Su 提出一个大胆的预测,在以 ChatGPT 为代表的 AI 计算需求的推动下,全球最高性能的计算集群的算力到 2035 年有望和 2022 年比增加 1000 倍进入 ZettaScale(每秒 10 的 21 次方浮点运算)时代。并呼吁全行业从工艺,架构,先进封装三方面进行创新。我们看到,在美国加强对华出口管制的背景下,中国发展先进工艺的路径中短期受阻。但是,我们认为,通过 1) 芯片架构创新及 2)先进封装,我们仍然能进一步提高计算芯片性能。国内行业方面,我们看到在长电、通富、盛合晶微、华峰测控等在先进封装领域,寒武纪、海光、燧原、沐曦、芯原等在异构计算(算力芯片、IP)等领域积极布局。

需求:AI 成为高性能计算主要需求,OpenAI 的算力已经超过太湖之光高性能计算主要用于气候预测等科学计算领域,但随着 AI 大模型的出现,AI 相关算力需求正成为高性能计算的主要增长点。据 OpenAI,目前大模型训练所需算力的增速保持 3-4 个月/倍速度增长,远超摩尔定律 18-24 个月/倍。据微软 2020 年披露,其服务 OpenAI 的计算集群采用超过 1 万张 GPU,根据我们测算,其浮点计算能力约相当于我国最先进的超算中心太湖之光,是世界最大的超算中心 Frontier 的 9%。AMD 估计,在 AI 等推动下,世界最高性能超算可能从现在的 Exascale(10^18),上升 1000 倍到 2035 年的Zettascale 级(10^21)。其能耗或达 500MW,逼近一座核电站的输出功率。

路径#1:异构计算,关注 GPU,DPU,存算一体等不同路径面对先进制程昂贵的成本和日趋接近的物理极限,仅靠工艺改进难以满足算力膨胀需求。异构计算从计算架构出发,充分利用计算资源的并行分布,将不同制程/架构、不同指令集、不同功能硬件进行组合,成为解决算力瓶颈更为经济的方式。目前主流异构包括 1)GPU(英伟达/AMD),2)DPU(英伟达子公司 Mallonex),3)存算一体,4)自适应加速器(AMD)等路径。

路径#2:先进封装从 2.5D 走向 3D先进封装是以一系列通过把采用不同工艺的小芯片相结合,提升芯片互联密度及通信带宽,从而能大规模提升芯片性能的技术。AMD 于 2015 年,在业界内率先采用 2.5D Chiplet 设计的芯片,通过把把存储和计算芯片在平面上连接,大幅提高系统性能。目前业界正向垂直堆叠的 3D 封装(图 10)演进。

路径#3:半导体工艺在 2026 年进入 1.4nm 时代IMEC 预计全球先进制程工艺将在 2026 年左右进入 1.4nm 时代。当半导体进入 3nm 制程以下时,目前主流的 FinFET 将走向物理极限,新一代的GAAFET(Nanosheet、Forksheet)将成为主流技术。IMEC 指出,ASML牵头的欧洲企业研发的 High NA EUV 光刻机是半导体工艺进入 GAA的关键技术。美国出口管制限制,该设备目前无法对中国出口。

中国如何实现 Zettascale 计算

AI 正成为高性能计算的最主要需求

据 IDC 数据,2021 年全球半导体行业销售额达到 5559 亿美元,同比增长 26.2%,其中包括数据中心用芯片和 PC 用芯片在内的计算,已经超过手机和基站在内的通信,成为半导体最大的终端需求,占比达到 32%的 1779 亿美金。计算用芯片,主要产品包括 GPU、CPU、内存、存储等。

过去,高性能计算主要用于气候预测等科学计算领域,根据 TOP500 统计,截至 2022 年11月,全球算力最大的计算集群是 2022年美国发布的Frontier,算力达1102 petaFLOPS,是首台算力达到 ExtaFLOPS(每秒 10 的 18 次方浮点运算)的计算集群,采用 36,922 颗AMD Instinct MI250X GPU 和 9,248 颗 AMD EPYC 64C CPU,主要用于前沿科学研究(例如癌症研究、药物发现、核聚变、前沿材料、超高效发动机和恒星爆炸等等)。

目前我国最快的超算中心是2016年发布的太湖之光,其算力达93 petaFLOPS,采用40,960颗基于 RISC 架构的申威 SW26010 CPU。根据 TOP500 排名,截至 2022 年 11 月,太湖之光名列全球第六。

但随着 AI 应用的普及,以及以 ChatGPT 为代表的大模型的出现,AI 相关算力需求正成为高性能计算的主要增长点。当前,大模型一个最最要的特点是,通过不断增加模型参数和训练的数据集的规模,来实现更高的预测精度和通用性。根据 OpenAI 统计,目前大模型训练所需算力的增速保持 3-4 个月/倍速度增长,远超摩尔定律 18-24 个月/倍。

根据微软 2020 年披露,其服务 OpenAI 的计算集群采用 1 万超过 1 万张 GPU。微软 2020年表示,与进入 TOP500 榜单的超算相比,这一计算集群排名前五。我们假设该集群使用英伟达 A100,经简略测算,在用于超算的 FP64 双精度下,其浮点计算能力约相当于我国最先进的超算中心太湖之光,是世界最大的超算中心 Frontier 的 9%。

以目前火热的 ChatGPT 为例,ChatGPT 主要是由(1)GPT-3.5 大模型,(2)对该大模型进行基于人类反馈的强化学习(RLHF)训练而来。GPT-3.5 模型未公布细节,但是其前代GPT-3 拥有 1750 亿参数,数据集 499B tokens,训练数据量为 300B tokens。

AMD 在今年 ISSCC 上指出,目前主流服务器每 2.4 年性能翻番,GPU 单精度浮点每 2.2年性能翻番。按此速度增长至 2035 年,最高性能超算可能从现在的 Exascale(10 的 18次方)上升 1000 倍到 Zettascale 级(10 的 21 次方)。全行业需要努力提高半导体能耗,不然一座 ZettaScale 数据中心的能耗可能达到 500MW,逼近一座核电站的放电能力(按照 CFETR 计划,DEMO(示范性聚变核电厂)的功率预期为 1GW,也就是大概 1000MW)。

为了实现 Zetta 计算,AMD 认为全行业可从工艺,架构,先进封装三方面进行创新。我们看到,在美国加强对华出口管制的背景下,中国发展先进工艺的路径中短期受阻。但是,我们认为,通过 1) 芯片架构创新及 2)先进封装,我们仍然能进一步提高计算芯片性能。

路径#1:提升半导体工艺,在 2026 年进入 1.4nm 时代

FinFET 走向物理极限,GAA 接棒先进制程演进。数字芯片最基本单元是 MOSFET。早期MOSFET 使用平面结构,沟槽宽度越小,漏极到源极距离越小,载流子流动跨越沟道导通时间减小,工作频率越高。但是,工艺尺寸越低,短沟道效应越明显,即对沟道控制力不断减弱。因此,FinFET 结构诞生,闸门被设计成类似鱼鳍的叉状 3D 架构,可于电路的两侧控制电路的接通与断开。这种叉状 3D 架构不仅能改善电路控制和减少漏电流,同时让晶体管的闸长大幅度缩减。当前 FinFET 逐步接近物理极限,为了进一步提高栅极对沟道控制能力,缩小单元尺寸,降低电压,GAA 栅极环绕结构被开发出来,其栅极在垂直方向被分成几个条带 RibbonFET,在其沟道区域,大幅增强对载流子控制,从而实现更好性能,同时也更容易优化工艺。

IMEC 预计全球半导体行业将在 2024 年进入 GAA 时代。IMEC 预计全球先进制程工艺将在 2023 年大规模量产 3nm,2026 年进入 1.4nm 时代,2032 年进入 0.5nm 时代。16/14nm开始,FinFET 为半导体器件的主流选择,但进入 3nm 制程以下时,FinFET 走向极限,基于 FinFET 结构进行的芯片尺寸缩小变得较为困难,GAAFET(Nanosheet、Forksheet)晶体管结构将逐步接棒,强化沟道控制能力。IMEC 指出,ASML 牵头的欧洲企业研发的High NA EUV 光刻机是半导体工艺进入 GAA 的关键环节。0.7nm 之后,IMEC 表示通过器件及材料创新,可使得先进制程继续演进,逐步进入 0.5nm/0.2nm 时代。

受美国出口管制限制,荷兰目前所有 EUV 光刻机无法向中国出口。

路径#2:先进封装从 2.5D 走向 3D

产业将从 2.5D 逐步走向 3D 封装。目前行业正从芯片/Chiplet 在平面上通过中介层、硅桥、高密度 RDL 等方式连接的 2.5D 封装,逐步走向把存储、计算芯片在垂直维度进行堆叠的3D 封装。以 AMD 为例,2015 年发布 Fury 旗舰显卡,通过硅中阶层连接 GPU 与 HBM。

此后,AMD 推出 3D 封装架构芯片。2021 年发布的 3D V-Cache 中,基于台积电 3D Fabric技术,成功将 L3 缓存垂直堆叠,通过 TSV 技术实现互联,实现整体互联密度为传统 2D Chiplet 的 200 倍+。AMD 基于此打造了第三代 AMD EPYC Milan-X 系列处理器。除台积电外,英特尔(Foveros)、三星(X-Cube)、日月光(VIPack)等均已推出 3D 封装解决方案。

2021-2027 年 2.5/3D 封装市场规模 CAGR 为 14%。根据 Yole,2015 年全球先进封装市场规模为 215 亿美元,占整体封装市场的 39%。2021 年,全球市场规模已达到 375 亿美元,占整体封装市场的 44%。在 HPC、AI、数据中心等应用驱动下,Yole 预计全球先进封装市场规模将在 2027 年达到 651 亿美元,在封装市场份额提升至 53%,2021-2027 年 CAGR为 9.6%,远高于同期传统封装的 3.3%。从细分市场来看,2021 年 FC(倒装)、扇入型晶圆级封装、扇出型晶圆级封装、2.5/3D 封装、嵌入式封装市场规模分别为 263/24/21/66/0.6亿美元,Yole 预计嵌入式封装和 2.5/3D 封装为未来成长性最高的细分市场,2021-2027 年CAGR 分别为 24%/14%,AI、HPC、数据中心、CIS、3D NAND、MEMS 等应用将驱动2.5/3D 封装市场增长;汽车、智能手机、医疗等终端市场将驱动嵌入式封装市场增长。

长电科技、通富微电等国内公司已在 2.5D 封装领域实现初步突破,未来将逐步进入 3D 封装领域。2.5/3D 封装核心在于以微小线宽距和微小中心距的微凸点为特点的高密度中介层互联,包括 TSV(硅通孔)、RDL(重布线堆叠)、FO interposer(扇出型中介)、嵌入式芯片基板。我们看到国内公司正在相关技术方面取得初步突破。长电科技 2021 年已突破 2022年已突破带 2.5D 硅通孔 MCM 的大尺寸 FCBGA 技术,并进入小量产。未来其有望在 2.5D封装领域逐步成熟,并走向 3D 封装领域。通富微电多层堆叠 NAND Flash 及 LPDDR 封装实现稳定量产,并于 2022 年完成基于 TSV 技术的 3DS DRAM 封装开发。

路径#3:异构计算:后摩尔时代,加速实现能源效率提升异构集合助推全球计算芯片快速发展。异构计算从后端制造创新出发,充分利用计算资源的并行和分布计算技术,将不同制程和架构、不同指令集、不同功能硬件进行组合,成为解决算力瓶颈更为经济的一种方式。目前比较常见 AI 芯片异构有以英伟达 Grace Hopper为代表的 CPU+GPU 路线,以 Waymo 为代表的 CPU+FPGA 路线以及以 Mobileye EyeQ5芯片和地平线征程系列为代表的 CPU+ASIC 路线。

回避先进制程瓶颈,AMD 异构集合计算另辟蹊径带来算力突破。2011 年 AMD 率先推出APU (Accelerated Processing Unit,加速处理器)产品,将中央处理器和独显核心做在一个晶片上,同时具有高性能处理器和最新独立显卡的处理性能。在 CPU+GPU 的异构技术路线上,AMD 相关产品为软件开发者带来前所未有的灵活性,能够任意采用最适合的方式开发新的应用。目前最新的 AMD MI200 系列加速器采用多种解决方案,包括 ATOS BullSequana X410-A5 2U1N2S(双 CPU+四 GPU)、戴尔 PowerEdge R7525(双CPU+三 GPU)、技嘉 G262-Z00(双 CPU+四 GPU)、HPE Cray EX235a(单 CPU+四GPU)等。

从 MI250 到 MI300:异构+先进封装+工艺合力推进计算效率提升。MI250 加速器是 AMD第一款 ExaScale 百亿亿次(10 的 18 次方)级别加速卡产品。在芯片架构方面,MI250 由6nm GPU 组成,并采用三种创新架构提升芯片加速性能:1)针对高性能计算和 AI 训练等特殊领域做了性能的加强,2)采用 Chiplet 级封装,使得存储芯片更接近于计算芯片,3)采用传统的电源管理等芯片来优化能源效率。通过创新的架构,MI250 实现了 HPC 和 AI节点的工作效率 12 倍的提升。而 MI300 则采用更为先进的 5nm 工艺制程,并在架构方面实现了全方位的升级:1)采用底部堆叠晶圆与缓存、顶部堆叠 CPU 与 GPU 的 3D 封装技术,2)在 CPU 与 GPU 之间采用统一的存储架构来存取数据,解决传统 CPU+GPU 集成面临缓存数据无法共享的问题,大大提升运算效率。基于架构的创新、Chiplet 以及 3D 封装技术,AMD MI300 相较于 MI250 实现芯片性能与能效 8x/5x 的提升,其提升速度大幅领先于业界平均水平

国内多核异构计算正当时,目前用在数据中心、自动驾驶偏多。目前国内从事异构计算相关领域的公司包括寒武纪(688256 CH)、海思(未上市)、芯动科技(未上市)、燧原科技(未上市)、天数智芯(未上市)、中科驭数(未上市)、云豹智能(未上市)等,除数据中心外,目前异构计算还多用于智能驾驶领域。面向 L3 级及以上等级自动驾驶车辆,单一芯片难以满足诸多接口和算力需求,需采用多核异构计算芯片。目前,主流的自动驾驶芯片构架有“CPU+GPU+ASIC”、“CPU+FPGA”和“CPU+ASIC”三种,是针对汽车自动驾驶等级提升带来数据体量快速膨胀的重要可行解决方案,国内厂商包括华为、地平线等。

--- 报告摘录结束 更多内容请阅读报告原文 ---

报告合集专题一览 X 由【报告派】定期整理更新

科技 / 电子 / 半导体 /

人工智能 | Ai产业 | Ai芯片 | 智能家居 | 智能音箱 | 智能语音 | 智能家电 | 智能照明 | 智能马桶 | 智能终端 | 智能门锁 | 智能手机 | 可穿戴设备 |半导体 | 芯片产业 | 第三代半导体 | 蓝牙 | 晶圆 | 功率半导体 | 5G | GA射频 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圆 | 封装封测 | 显示器 | LED | OLED | LED封装 | LED芯片 | LED照明 | 柔性折叠屏 | 电子元器件 | 光电子 | 消费电子 | 电子FPC | 电路板 | 集成电路 | 元宇宙 | 区块链 | NFT数字藏品 | 虚拟货币 | 比特币 | 数字货币 | 资产管理 | 保险行业 | 保险科技 | 财产保险 |

(特别说明:本文来源于公开资料,摘录内容仅供参考,不构成任何投资建议,如需使用请参阅报告原文。)

精选报告来源:报告派


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1