当前位置:首页|资讯|AIGC|ChatGPT

AI算力产业链梳理:AIGC场景增多驱动算力需求提升

作者:未来智库发布时间:2023-03-22

(报告出品方/作者:安信证券,马良、程宇婷)

1.ChatGPT 浪潮带动算力需求提升,以 GPU 为核心的硬件市场扩容

1.1.ChatGPT:基于生成式 AI 技术的大型语言模型,商业化迅速开启

ChatGPT(Chat Generative Pre-trained Transformer)是由 OpenAI 开发的聊天机器人程 序,于 2022 年 11 月推出。ChatGPT 是目前为止最先进的语言生成模型之一,使用基于 GPT3.5 架构的大型语言模型(LLM),并通过强化学习进行训练,拥有语言理解和文本生成能力, 适用于问答、对话、生成文本等多种场景。ChatGPT 用户规模扩增迅速,根据 Similar Web 数据,2023 年 1 月期间,ChatGPT 平均每天大约有 1300 万独立访客,数量是 2022 年 12 月 的两倍多(Similarweb 数据); 根据瑞银公开报告数据,2023 年 1 月(即上线两个月后)实 现全球 1 亿月活跃用户,是历史上增长最快的消费者应用程序。 ChatGPT 是生成式 AI 在文字生成领域的应用,创造能力是其核心优势。传统 AI 依靠逻辑进 行分类和判断,而生成式 AI 的壁垒在于能够创造新内容,可以是多模态的、模仿人类情感 的、具有互动和审美性质的。传统的聊天机器人(Chatbot),例如客服机器人,只能根据用 户输入的内容在数据库中查询到对应答案,再机械地以模板的形式反馈给客户;而 ChatGPT 采取生成式 AI 技术,并且有工作人员每日优化模型,在应对用户提问时会根据上下文内容 调整回答内容,增强互动式、对话式的情感体验,更加智能。

OpenAI 开放 API,降本 90%扩大覆盖用户面。2023 年 3 月 1 日,OpenAI 官网宣布 ChatGPT 和 Whisper(OpenAI 去年发行的语音识别生成模型)的 API 开放使用,开发者可将模型集成到 APP 和其他产品中。ChatGPT API 接入的模型为 GPT-3.5-turbo,与 GPT-3.5 相比更加快捷、 准确,成本也更低,定价为每 1000 个 tokens(约 750 个单词) 0.002 美元,用户则需要按 照输入和输出的 tokens 总数来付费。OpenAI 官方表示自 2022 年 12 月以来 ChatGPT 降低了 90%的成本,开放 API 旨在使更多人受益于生成式 AI 技术。

1.2.采用 GPT-3.5 预训练模型,参数量随模型换代呈指数型增长

GPT3.5 是一种大型语言模型(LLM),参数量大,精准度高。GPT-3.5 采用深度学习中的 Transformer 架构,并通过大规模预训练(pre-training)的方式来学习自然语言处理任务, 可以进行文本生成、对话生成、文本分类、命名实体识别、关键词提取等自然语言处理任务。

语言模型(LM)是指对语句概率分布的建模。具体是判断语句的语序是否正常,是否可 以被人类理解。它根据句子中先前出现的单词,利用正确的语序预测句子中下一个单词, 以达到正确的语义。例如,模型比较“我是人类”和“是人类我”出现的概率,前者是正确语序,后者是错误语序,因此前者出现的概率比后者高,则生成的语句为“我是人 类”。

大型语言模型(LLM)是基于海量数据集进行内容识别、总结、翻译、预测或生成文本等 的语言模型。相比于一般的语言模型,LLM 识别和生成的精准度会随参数量的提升大幅 提高。

ChatGPT 需要通过预训练来形成 GPT3.5 的模型,从而可以在用户端的网页或 APP 进行推理。 预训练指先通过一部分数据进行初步训练,再在这个初步训练好的模型基础上进行重复 训练,或者说是“微调”; 推理指将预训练学习到的内容作为参考,对新的内容进行生成或判断。 预训练是模型运作的主要部分,所需要的精度较高,算力需求也较高;推理则相反。

ChatGPT 通过 Transformer 和 RLHF 两种语言模型进行预训练,可并行训练并大量优化反馈。 采用深度学习中的 Transformer 架构,并通过大规模预训练(pre-training)的方式来学习 自然语言处理任务,可以进行文本生成、对话生成、文本分类、命名实体识别、关键词提取 等自然语言处理任务。

长短期记忆网络算法(LSTM)是一种时间循环神经网络。传统的循环神经网络(RNN)拥 有链式形式,就像人脑会忘记很久以前发生的事件,RNN 也会忘记它在较长序列中学习 的内容,因此具有短时记忆。LSTM 是一种特殊的 RNN,它解决了传统 RNN 的短时记忆问 题,在 Transformer 问世前曾主导 NLP 领域,但也拥有无法并行训练、建模长度有限的 缺点。

Transformer 是一个完全依赖于自注意力机制来计算其输入和输出的表示的转换模型, 所以与 LSTM 的顺序处理不同,它可以并行同时处理所有的输入数据,模仿人类联系上 下文的习惯,从而更好地为 LLM 注入意义并支持处理更大的数据集。

人类反馈信号强化学习(RLHF)指使用强化学习的方式直接优化带有人类反馈的语言模 型,使得语言模型能够与复杂的人类价值观“对齐”。它负责 ChatGPT 预训练中微调的部 分,首先在人类的帮助下训练一个奖赏网络(RM),RM 对多个聊天回复的质量进行排序, 从而增加 ChatGPT 对话信息量,使其回答具有人类偏好。

ChatGPT 的预训练需要处理海量参数,从而实现超高文本识别率。OpenAI 目前没有公布 ChatGPT 所使用的 GPT-3.5 的相关数据,由表 2 可知,随着新模型推出,新的参数量需求呈 翻倍式增长。OpenAI 首席执行官 Sam Altman 接受公开采访表示,GTP-4 参数量为 GTP-3 的 20 倍,需要的计算量为 GTP-3 的 10 倍;GTP-5 在 2024 年底至 2025 年发布,它的参数量为 GTP-3 的 100 倍,需要的计算量为 GTP-3 的 200-400 倍。

GPT-4 功能升级,多模态拓展应用场景。2023 年 3 月 14 日,OpenAI 正式发布 GPT-4 模型, 早于此前 23 年下半年发布的时间规划。根据 OpenAI 官方,GPT-4 模型于 2022 年 8 月完成训 练,之后通过 6 个月时间对模型进行了安全性研究、风险评估和迭代。GPT-4 作为大型多模 态模型,在多方面提升显著: 1)多模态大模型——新增接受图片和文本输入并产生文本输出能力,能分析图片的符号意 义,如理解图片中的“笑梗”;文字方面,GPT-4 的输入限制由 3000 字提升至 2.5 万字,对 于英语以外的语种支持有更多优化。 2)提升各种专业和学术水准并有较好表现。能处理更长更复杂的文本,在没有针对考试内容 进行特别训练的基础上,GPT-4 在各项测试中均取得较高成绩,如 GPT-4 在 GRE 考试中取得 332+4 分,GPT-4(no vision)取得 322+4 分,而 GPT-3.5 分数为 301+4 分。 3)在安全、一致性上有较为明显的提升。根据 OpenAI 的对抗性测试和红队测试结果,相比 GPT-3.5,GPT-4 产生客观事实回答的可能性提升 40%,响应违禁内容请求的可能性降低 82%。

根据公开新闻整理,目前接入 GPT-4 支持的应用端已有微软的必应浏览器 new Bing、嵌入于 办公软件的 Microsoft 365 Copilot 人工智能服务,外语培训教育机构多邻国的付费产品 DuolingoMax、摩根士丹利等。我们认为,随着 GPT-4 等模型复杂度升级,并逐步支持图片视 频识别等多模态,对应的算力及基础设施需求有望持续增长;下游则有望拓展更多图片视频 内容端的商业化应用场景。

1.3.海量参数产生大算力需求,GPGPU 等高壁垒 AI 芯片受益

ChatGPT 算力需求与参数量呈正相关,对硬件的内存容量和带宽提出高要求。算力即计算能 力,具体指硬件对数据收集、传输、计算和存储的能力,算力的大小表明了对数字化信息处 理能力的强弱,常用计量单位是 FLOPS(Floating-point operations per second),表示每 秒浮点的运算次数。硬件方面,运算量取决于 GPU 运算执行时间的长短,而参数量取决于占 用显存的量。运算量(FLOPS)的数值通常与参数量(parameter count)成比例,不同模型 架构的换算关系不同。模型越复杂、参数量越大,所需计算量越大。 GPGPU 拥有硬件技术的核心壁垒:大显存带宽,进行超高能效比的并行运算,可同时用于 GPT 模型的训练和推理过程。GPGPU(通用图像处理器)是一种由 GPU 去除图形处理和输出,仅保 留科学计算、AI 训练和推理功能的 GPU(图形处理器)。GPU 芯片最初用于计算机系统图像显 示的运算,但因其相比于擅长横向计算的 CPU 更擅长于并行计算,在涉及到大量的矩阵或向 量计算的 AI 计算中很有优势,GPGPU 应运而生。目前,GPGPU 的制造工艺在英伟达等企业的 领导下已趋向成熟,成本在 AI 芯片中也较低,成为市场主流选择, ChatGPT 引起的 AI 浪潮 有望提升其应用规模。

FPGA 具有可编程的灵活性,ASIC 性能佳、具有定制化特点,但成本方面与 GPU 相比稍显劣 势,在 GPT 等 AI 模型的运用占比较 GPU 低。FPGA 指现场可编程逻辑门阵列,具有静态可重 复编程和动态在系统重构的特性,但其开发难度大、只适合定点运算,同时价格也比较昂贵, 性能方面也不及 GPU 与 ASIC,只在精度较低的推理过程有所应用。ASIC 指专用集成电路,是 一种应不同用户需求和不同系统需要而设计、制造的集成电路。ASIC 芯片的性能较 GPU 佳, 能耗也较低,但因其定制性价格昂贵,在人工智能平台和推理过程中有部分应用。

1.4.类 ChatGPT 成本高昂产品涌现,国产大模型方兴未艾

大模型运行成本高昂,准入壁垒较高。大模型对于训练时间和参数量都有高要求,以 OpenAI CEO Altman 在推特上回复马斯克的留言可知,ChatGPT 平均一次聊天成本为几美分。根据 Similar Web 数据,2023 年1月 27 日至 2 月 3 日 ChatGPT 日活跃用户达 2500 万人。中性假 设下,以平均单人单日对话 7 次,每次 3 美分成本进行测算,对应一年支出对话成本约为 19.2 亿美元。根据英伟达官网,A100 作为 DGX A100 系统的一部分进行销售,该系统搭载 8个 A100 GPU,一个由 5 台 DGX A100 系统组成的机架可替代一个包括 AI 训练和推理基础设施 的数据中心,且功耗仅为其 1/20,成本为其 1/10,系统售价 19.9 万美元。因此,在中性假 设条件下,考虑到服务器约占数据中心成本的 70%(中商产业研究院),则 ChatGPT 运营一年 将需要 6741 个 DGX A100 系统用于支撑访问量。因此我们推断,在高昂成本及大数据量需求 的限制下,仅有限数量的科技巨头具备参与 AI 竞赛的实力。

ChatGPT带动大模型竞品发布,海内外科技巨头先后加码AI布局。1)谷歌向AI公司Anthropic 投资近 4 亿美元,后者正在测试生成式 AI 工具 Claude,且谷歌也推出对标 ChatGPT 的聊天 机器人 Bard。2)微软以 100 亿美元投资 ChatGPT 的开发商 OpenAI,并获得其 49%股权。2023 年 2 月,微软发布基于 ChatGPT 的 new Bing。3)亚马逊云服务 AWS 宣布与 AI 公司 Hugging Face 开展合作,Hugging Face 将在 AWS 上开发针对 ChatGPT 的开源竞品,构建开源语言模 型的下个版本 Bloom。4)阿里达摩院正研发类 ChatGPT 的对话机器人,目前已处于内测阶段。 5)百度开发类 ChatGPT 项目“文心一言”(ERINE Bot)。6)京东推出产业版 ChatJD。

基于昆仑芯+飞桨+文心大模型 AI 底座,百度推出“文心一言”拉开国产生成式 AI 序幕。2023 年 3 月 16 日,百度正式推出国内首款生成式 AI 产品“文心一言”,可支持文学创作、文案创 作、数理推算、多模态生成等功能,目前已有多家厂商宣布接入。“文心一言”基于全栈自研 的 AI 基础设施进行学习和训练: 昆仑芯 2 代 AI 芯片:“文心一言”的芯片层核心能力,采用自研 XPU-R 架构,通用性和 性能显著提升;256 TOPS@INT8 和 128 TFLOPS@FP16 的算力水平,较一代提升 2-3 倍, 保障“文心一言”算力需求;采用 7nm 先进工艺,GDDR6 高速显存,支持虚拟化,芯片 间互联和视频编解码等功能。 飞桨深度学习平台:“文心一言”的框架层核心能力,系业内首个动静统一的框架、首个 通用异构参数服务器架构,支持端边云多硬件和多操作系统,为文心大模型提供有效、 快捷、完整的训练框架。

文心知识增强大模型:“文心一言”的模型层核心能力,该产品主要采用 ERNIE 系列文心 NLP 模型,拥有千亿参数级别的 ERNIE 3.0 Zeus 为该系列最新模型,进一步提升了模型 对于不同下游任务的建模能力,大大拓宽了“文心一言”的应用场景。 我们认为,随着国产 AI 大模型应用的不断拓展,算力基础设施加速升级,伴随产业链自主研 发需求及地缘政治不确定性,关于进口高端 AI 芯片及服务器中美博弈升级,国产高算力 GPU 芯片、服务器及数据中心等厂商有望加速迭代,长期充分受益。

1.5.以 GPT-3 为例测算:大算力需求驱动 AI 硬件市场空间提升

GPT-3(Generative Pre-trained Transformer 是 GPT-3.5 的上一代语言模型,目前一般所 说的 GPT-3 即为拥有 1750 亿参数的最大 GPT-3 模型,OpenAI 在公开发表的论文《Language Models are Few-Shot Learners》中对 GPT-3 模型进行了详细分析。对于以 ChatGPT 为例的 大模型算力需求,根据测算,我们预计用于高端 GPGPU 显卡的训练及推理部分市场空间合计 约 145.32 亿元,其中训练市场规模为 27.84 亿元,推理市场规模为 117.48 亿元。

1.6.GPT-4 模型算力需求扩增,架构升级降本增效未来可期

根据 OpenAI 官网显示,目前 GPT-4 每 4 小时只能处理 100 条消息,且并没有开放图片识别 功能。大模型升级带来的运算需求逐渐加码,且可推测目前算力已处于供不应求状态。 多模态拓展,图片识别算力需求升级十倍以上。关于从图片到 token 的转换方式,OpenAI 未 公布 GPT-4 的模型参数,假设 GPT-4 处理图片视觉任务使用 VisionTransformer 模型(ViT), 则输入图片尺寸必须为 224×224(ViT-B/16 版本)。根据 2021 年 ICLR 论文,模型原理大致 为把一张图片分成 nxn 个 Patch,每一个 Patch 作为一个 Token。即把一张 224×224×3 的图 片,切分为 16×16 大小的 Patch,每个 Patch 是三通道小图片,得到 16×16×3=768 个 token 并作为向量输入。相较之下,根据前文 GPT-3 部分假设,假设每个文字问题 50-100 词,即 67-133token。我们可以粗略推论,图像识别的所需算力是文字推理部分所需算力的十倍以 上级别。

编译器性能升级,带动大模型产品加速迭代。随着 2023 年 3 月 15 日 Pytorch2.0 正式版的发 布,编译器的性能有大幅提升。Pytorch 作为主流深度学习框架,用于构建及训练深度学习 模型。Pytorch2.0 正式版包含的新高性能 TransformAPI 能使 GPT-3 等使用的先进 transformer 模型的训练和部署更加容易、快速。根据 PyTorch 基金会数据,在 Nvidia A100 GPU 上使用 PyTorch 2.0 对 163 个开源模型进行的基准测试,其中包括图像分类、目标检测、 图像生成,以及各种 NLP 任务,2.0 版本的编译时间比 1.0 提高 43%。我们认为,编译器性 能的提升带动 AI 大模型编译时间缩短,新产品推出进展或将超预期。

同时我们认为,目前模型的计算成本高,参数量大,长期看模型架构的升级将缩小训练成本, 并拓宽边缘设备等部署场景,对算力的需求有望从单模型所需芯片价值量高的推演转变为应 用场景快速拓展的量的增长。

(1)根据 Nature2023 年 3 月 8 日文章,有观点认为, 更大参数量的模型只是在回答训练数据相关范围的查询上表现更好,并不具备获得回答新问 题的更优能力。过往几年,AI 大模型的训练使用更高的算力和参数量,但一些小型性能好的 模型涌现,在训练中用了更高数据。具体而言,2023 年 2 月 Meta 发布 LLaMA 小参数模型, 130 亿参数但训练量多达 1.4 万亿个,表现优于 GPT-3。而同年 3 月 14 日,斯坦福发布基于 LLaMA 的 AIpaca7B 微调模型,其 52000 个指令的 OpenAI API 总成本不到 500 美元;微调过 程在云计算平台使用 8 个 A100 80GB GPU,用时 3 小时,成本约 100 美元。测试结果表明 AIpaca7B 性能和其指令资料来源的 GPT-3 模型相近。长期来看,大模型有望向规模更小、更 智能高效的方向演进。

(2)多模态方面,举例说明,根据清华大学 2021 年论文

,ViT 的最终预测仅基于信息最丰富的 token 的一个子集,该子集足以进行图像准确识别,论文提出的动态 token 稀疏化框架可 以理解为轻量化预测模块,估计每个 token 的重要性,从而动态删除冗余 token,其框架的 结论减少了 31-37%FLOPS,提升 40%以上吞吐量,同时精度下降小于 5%。

1.7.英伟达引领硬件端产品升级,国产 GPU 静待花开

大 GPU 优势在于通过并行计算实现大量重复性计算。GPGPU(General Purpose GPU)即通用 GPU,能够帮助 CPU 进行非图形相关程序的运算。在类似的价格和功率范围内,GPU 能提供比 CPU 高得多的指令吞吐量和内存带宽。GPGPU 架构设计时去掉了 GPU 为了图形处理而设计的 加速硬件单元,保留了 GPU 的 SIMT(Single Instruction Multiple Threads)架构和通用计 算单元,通过 GPU 多条流水线的并行计算来实现大量计算。所以基于 GPU 的图形任务无法直 接运行在 GPGPU 上,但对于科学计算,AI 训练、推理任务(主要是矩阵运算)等通用计算类 型的任务仍然保留了 GPU 的优势,即高效的搬运和运算有海量数据的重复性任务。目前主要 用于例如物理计算、加密解密、科学计算以及比特币等加密货币的生成。

英伟达 CUDA 架构引领 GPGPU 开发市场,算力底座筑造核心护城河。随着超算等高并发性计 算的需求不断提升,英伟达以推动 GPU 从专用计算芯片走向通用计算处理器为目标推出了 GPGPU,并于 2006 年前瞻性发布并行编程模型 CUDA,以及对应工业标准的 OpenCL。CUDA 是 英伟达的一种通用并行计算平台和编程模型,它通过利用图形处理器 (GPU)的处理能力,可 大幅提升计算性能。CUDA 使英伟达的 GPU 能够执行使用 C、C++、Fortran、OpenCL、 DirectCompute 和其他语言编写的程序。在 CUDA 问世之前,对 GPU 编程必须要编写大量的 底层语言代码;CUDA 可以让普通程序员可以利用 C 语言、C++等为 CUDA 架构编写程序在 GPU 平台上进行大规模并行计算,在全球 GPGPU 开发市场占比已超过 80%。GPGPU 与 CUDA 组成的 软硬件底座,构成了英伟达引领 AI 计算及数据中心领域的根基。

通过与云计算平台的集成,CUDA 可在未购买 GPU 硬件的基础上提供强大计算能力。例如,假 设客户需要训练一个深度学习模型需要大量的计算资源和时间,通过在 AWS 上租用一个带有 NVIDIA GPU 的实例,并在该实例上安装 CUDA,客户可以使用 CUDA API 和库来利用 GPU 的计 算能力运行计算密集型工作负载,从而可以无需购买GPU硬件并快速完成训练任务。除了AWS, 其他云计算提供商如 Microsoft Azure、Google Cloud Platform 等也提供了与 CUDA 集成的 服务。这些服务可以为客户提供强大的 GPU 计算能力,从而加速计算密集型工作负载的处理 速度。

GPU 架构升级过程计算能力不断强化,Hopper 架构适用于高性能计算(HPC)和 AI 工作负载。 英伟达在架构设计上,不断加强 GPU 的计算能力和能源效率。在英伟达 GPU 架构的演变中, 从最先 Tesla 架构,分别经过 Fermi、Kepler、Maxwell、Pascal、Volta、Turing、Ampere 至发展为今天的 Hopper 架构。以 Pascal 架构为分界点,自 2016 年后英伟达逐步开始向深 度学习方向演进。根据英伟达官网,Pascal 架构,与上一代 Maxwell 相比,神经网络训练速度提高 12 倍多,并将深度学习推理吞吐量提升了 7 倍。Volta 架构,配备 640 个 Tensor 内 核增强性能,可提供每秒超过 100 万亿次(TFLOPS)的深度学习性能,是上一代 Pascal 架构 的 5 倍以上。Turing 架构,配备全新 Tensor Core,每秒可提供高达 500 万亿次的张量运算。 Ampere 架构,采用全新精度标准 Tensor Float 32(TF32),无需更改任何程序代码即可将 AI 训练速度提升至 20 倍。最新 Hopper 架构是第一个真正异构加速平台,采用台积电 4nm 工 艺,拥有超 800 亿晶体管,主要由 Hopper GPU、Grace CPU、NVLINK C2C 互联和 NVSwitch 交 换芯片组成,根据英伟达官网介绍,其性能相较于上一代 Megatron 530B 拥有 30 倍 AI 推理 速度的提升。

AMD 数据中心领域布局全面,形成 CPU+GPU+FPGA+DPU 产品矩阵。与英伟达相比,AMD 在服务 器端 CPU 业务表现较好,根据 Passmark 数据显示,2021 年 Q4 AMD EPYC 霄龙系列在英特尔 垄断下有所增长,占全球服务器 CPU 市场的 6%。依据 CPU 业务的优势,AMD 在研发 GPGPU 产 品时推出 Infinity Fabric 技术,将 EPYC 霄龙系列 CPU 与 Instinct MI 系列 GPU 直接相连, 实现一致的高速缓存,形成协同效应。此外,AMD 分别于 2022 年 2 月、4 月收购 Xilinx 和 Pensando,补齐 FPGA 与 DPU 短板,全面进军数据中心领域。 软件方面,AMD 推出 ROCm 平台打造 CDNA 架构,但无法替代英伟达 CUDA 生态。AMD 最新的面 向 GPGPU 架构为 CDNA 系列架构,CDNA 架构使用 ROCm 自主生态进行编写。AMD 的 ROCm 生态 采取 HIP 编程模型,但 HIP 与 CUDA 的编程语法极为相似,开发者可以模仿 CUDA 的编程方式为 AMD 的 GPU 产品编程,从而在源代码层面上兼容 CUDA。所以从本质上来看,ROCm 生态只 是借用了 CUDA 的技术,无法真正替代 CUDA 产生壁垒。

前瞻性布局 AI 和云计算领域,英伟达独占鳌头。回顾英伟达发展历程,在传统游戏业务外, 公司始终关注数据中心业务布局:英伟达早在 2006 年便推出 CUDA 架构,提高 GPU 解决复杂 计算的能力;2007 年推出专为高性能计算设计的 Tesla 系列 GPU 产品,此后开始快速迭代, 性能不断提升,至今已发展出 8 个架构;2016 年推出世上首款台式超级计算机 DGX-1,主要 应用于 AI 领域;2019 年收购 Mellanox,降低云数据中心的运营成本。与 AMD、英特尔相比, 英伟达在 AI 计算领域独占鳌头:在 2020 年全球 TOP500 超级计算机榜单中,有 333 台超级 计算机采用了英伟达的技术,占总数的 66.6%,英伟达的统治地位可见一斑。

软硬件共同布局形成生态系统,造就英伟达核心技术壁垒。

硬件端:基于 GPU、DPU 和 CPU 构建英伟达加速计算平台生态: (1)主要产品 Tesla GPU 系列迭代速度快,从 2008 年至 2022 年,先后推出 8 种 GPU 架构, 平均两年多推出新架构,半年推出新产品。超快的迭代速度使英伟达的 GPU 性能走在 AI 芯 片行业前沿,引领人工智能计算领域发生变革。 (2)DPU 方面,英伟达于 2019 年战略性收购以色列超算以太网公司 Mellanox,利用其 InfiniBand(无限带宽)技术设计出 Bluefield 系列 DPU 芯片,弥补其生态在数据交互方面 的不足。InfiniBand 与以太网相同,是一种计算机网络通信标准,但它具有极高的吞吐量和 极低的延迟,通常用于超级计算机的互联。英伟达的 Bluefield DPU 芯片可用于分担 CPU 的 网络连接算力需求,从而提高云数据中心的效率,降低运营成本。 (3)CPU 方面,自主设计 Grace CPU 并推出 Grace Hopper 超级芯片,解决内存带宽瓶颈问 题。采用 x86 CPU 的传统数据中心会受到 PCIe 总线规格的限制,CPU 到 GPU 的带宽较小,计 算效率受到影响;而 Grace Hopper 超级芯片提供自研 Grace CPU+GPU 相结合的一致内存模 型,从而可以使用英伟达 NVLink-C2C 技术快速传输,其带宽是第 5 代 PCIe 带宽的 7 倍,极 大提高了数据中心的运行性能。

相较于 A100 GPU,H100 性能再次大幅提升。在 H100 配备第四代 Tensor Core 和 Transformer 引擎(FP8 精度),同上一代 A100 相比,AI 推理能力提升 30 倍。其核心采用的是 TSMC 目前 最先进的 4nm 工艺,H100 使用双精度 Tensor Core 的 FLOPS 提升 3 倍。

国内 GPGPU 生态起步较晚,国产 GPU 亟待补位。根据华为 2021 年 9 月发布的《智能世界 2030》 报告,人类将于 2030 年进入 YB 数据时代,通用算力相较 2020 年增长 10 倍、人工智能算力国产 GPU 厂商的核心架构多为自研,难度极高,需投入海量资金以及高昂的人力和时间成本。 由于我国 GPU 行业起步较晚,缺乏相应生态,目前同国际一流厂商仍存在较大差距。在中美 摩擦加剧、经济全球化逆行的背景下,以海光信息、天数智芯、壁仞科技和摩尔线程等为代 表的国内 GPU 厂商进展迅速,国产 GPU 自主可控未来可期。

2.大算力场景遇到的问题及解决途径

2.1.“内存墙”、“功耗墙”等掣肘 AI 的算力发展

“存”“算”性能失配,内存墙导致访存时延高,效率低。内存墙,指内存的容量或传输带宽 有限而严重限制 CPU 性能发挥的现象。内存的性能指标主要有“带宽”(Bandwidth)和“等待 时间”(Latency)。近 20 年间,运算设备的算力提高了 90000 倍,提升非常快。虽然存储器 从 DDR 发展到 GDDR6x,能够用于显卡、游戏终端和高性能运算,接口标准也从 PCIe1.0a 升 级到 NVLink3.0,但是通讯带宽的增长只有 30 倍,和算力相比提高幅度非常缓慢。

冯诺依曼架构下,数据传输导致严重的功耗损失。冯·诺依曼架构要求数据在存储器单元和 处理单元之间不断地“读写”,这样数据在两者之间来回传输就会消耗很多的传输功耗。根据 英特尔的研究表明,当半导体工艺达到 7nm 时,数据搬运功耗高达 35pJ/bit,占总功耗的 63.7%。数据传输造成的功耗损失越来越严重,限制了芯片发展的速度和效率,形成了“功耗 墙”问题。

AI 模型参数量极速扩大,GPU 内存增长速度捉襟见肘。在 GPT-2 之前的模型时代,GPU 内存 还能满足 AI 大模型的需求。近年来,随着 Transformer 模型的大规模发展和应用,模型大小 每两年平均增长了 240 倍。GPT-3 等大模型的参数增长已经超过了 GPU 内存的增长。传统的 设计趋势已经不能适应当前的需求,芯片内部、芯片之间或 AI 加速器之间的通信成为了 AI 训练的瓶颈。AI 训练不可避免地遇到了“内存墙”问题。

AI 模型运算量增长速度不断加快,推动硬件算力增长。预训练技术的进步导致了各领域模型 计算量的快速增长,大约每两年就要增加 15 倍。而 Transformer 类模型的运算量更是每两 年就要增加 750 倍。这种近乎指数的增长趋势促使 AI 硬件的研发方向发生变化,需要更高 的峰值算力。当前的研究为了实现更高的算力,甚至不惜简化或者优化其他部分组件,例如 内存的分层架构,将 DRAM 容量用于需要高性能访问的热数据,将容量层用于处理需要大容 量但性能要求不那么高的任务,以适应不同的数据类型、用例、技术需求和预算限制,适用 于 AI、ML 和 HPC 等众多应用场景,能帮助企业以经济高效的方式满足内存需求。

2.2.“内存墙”、“功耗墙”等问题解决路径

2.2.1.存算一体技术:以 SRAM、RRAM 为主的新架构,大算力领域优势大

存算一体在存储器中嵌入计算能力,以新的运算架构进行乘加运算。存算一体是一种以数据 为中心的非冯诺依曼架构,它将存储功能和计算功能有机结合起来,直接在存储单元中处理 数据。存算一体通过改造“读”电路的存内计算架构,可以直接从“读”电路中得到运算结 果,并将结果“写”回存储器的目标地址,避免了在存储单元和计算单元之间频繁地转移数 据。存算一体减少了不必要的数据搬移造成的开销,不仅大幅降低了功耗(降至 1/10~1/100), 还可以利用存储单元进行逻辑计算提高算力,显著提升计算效率。它不仅适用于 AI 计算,也 适用于感存算一体芯片和类脑芯片,是未来大数据计算芯片架构的主流方向。

SRAM、RRAM 是存算一体介质的主流研究方向。存算一体的成熟存储器有几种,比如 NOR FLASH、 SRAM、DRAM、RRAM、MRAM 等 NVRAM。 FLASH 是非易失性存储,成本低,可靠性高,但制程有瓶颈。SRAM 速度快,能效比高,在存内逻辑技术发展后有高能效和高精度的特点。DRAM 容量大,成本低,但速度慢,需要不断刷新电力。 新型存储器 PCAM、MRAM、RRAM 和 FRAM 也适用于存算一体。其中 RRAM 在神经网络计算 中有优势,是下一代存算一体介质的主流方向之一。除了 SRAM 之外,RRAM 也是未来发 展最快的新型存储器之一,它结构简单,速度高,但材料不稳定,工艺还需 2-5 年才能 成熟。

存算一体有着广泛的应用场景,在不同大小设备上均有需求。

从技术领域来看,存算一体可以应用于: (1)AI 和大数据计算:将 AI 计算中大量乘加计算的权重部分存在存储单元中,从而在读取 的同时进行数据输入和计算处理,在存储阵列中完成卷积运算。 (2)感存算一体:集传感、储存和运算为一体构建感存算一体架构,在传感器自身包含的 AI 存算一体芯片上运算,来实现零延时和超低功耗的智能视觉处理能力。 (3)类脑计算:使计算机像人脑一样将存储和计算合二为一,从而高速处理信息。存算一体 天然是将存储和计算结合在一起的技术,是未来类脑计算的首选和产品快速落地的关键。

从应用场景来分,存算一体可以适用于各类人工智能场景和元宇宙计算,如可穿戴设备、 移动终端、智能驾驶、数据中心等。 (1)针对端侧的可穿戴等小设备,对成本、功耗、时延难度很敏感。端侧竞品众多,应用场 景碎片化,面临成本与功效的难题。存算一体技术在端侧的竞争力影响约占 30%。(例如 arm 占 30%,降噪或 ISP 占 40%,AI 加速能力只占 30%) (2)针对云计算和边缘计算的大算力设备,是存算一体芯片的优势领域。存算一体在大算力 领域的竞争力影响约占 90%。

传统存储大厂纷纷入局,新兴公司不断涌现。 (1)国外方面,三星电子在多个技术路线进行尝试,发布新型 HBM-PIM(存内计算)芯片、 全球首个基于 MRAM(磁性随机存储器)的存内计算研究等。台积电在 ISSCC 2021 上提出基 于数字改良的 SRAM 设计存内计算方案。英特尔也早早提出近内存计算战略,将数据在存储 层级向上移动,使其更接近处理单元进行计算。 (2)国内方面,阿里达摩院成功研发全球首款基于 DRAM 的 3D 键合堆叠存算一体芯片,可突 破冯·诺依曼架构的性能瓶颈。千芯科技是可重构存算一体 AI 芯片的领导者和先驱,核心产 品包括高算力低功耗的存算一体 AI 芯片/IP 核(支持多领域多模态人工智能算法)。后摩智 能致力于突破智能计算芯片性能及功耗瓶颈,其提供的大算力、低功耗的高能效比芯片及解 决方案,可应用于无人车、泛机器人等边缘端,以及云端推荐、图像分析等云端推理场景。

2.2.2.HBM 技术:高吞吐高带宽,AI 带动需求激增

HBM(High Bandwidth Memory)意为高带宽存储器,是一种硬件存储介质,是高性能 GPU 的 核心组件。HBM 具有高吞吐高带宽的特性,受到工业界和学术界的关注。它单颗粒的带宽可 以达到 256 GB/s,远超过 DDR4 和 GDDR6。DDR4 是 CPU 和硬件处理单元的常用外挂存储设备, 但是它的吞吐能力不足以满足当今计算需求,特别是在 AI 计算、区块链和数字货币挖矿等 大数据处理访存需求极高的领域。GDDR6 也比不上 HBM,它单颗粒的带宽只有 64 GB/s,是 HBM 的 1/4。而 DDR4 3200 需要至少 8 颗粒才能提供 25.6 GB/s 的带宽,是 HBM 的 1/10。 HBM 使用多根数据线实现高带宽,完美解决传统存储效率低的问题。HBM 的核心原理和普通 的 DDR、GDDR 完全一样,但是 HBM 使用多根数据线实现了高带宽。HBM/HBM2 使用 1024 根数 据线传输数据,作为对比,GDDR 是 32 根,DDR 是 64 根。HBM 需要使用额外的硅联通层,通 过晶片堆叠技术与处理器连接。这么多的连接线保持高传输频率会带来高功耗。因此 HBM 的 数据传输频率相对很低,HBM2 也只有 2 Gbps,作为对比,GDDR6 是 16 Gbps,DDR4 3200 是 3.2 Gbps。这些特点导致了 HBM 技术高成本,容量不可扩,高延迟等缺点。

HBM 可以被广泛的应用到汽车高带宽存储器,GPU 显存芯片,部分 CPU 的内存芯片,边缘 AI 加速卡,Chiplets 等硬件中。在高端 GPU 芯片产品中,比如 NVDIA 面向数据中心的 A100 等 加速卡中就使用了 HBM;部分 CPU 的内存芯片,如目前富岳中的 A64FX 等 HPC 芯片中也有应 用到。车辆在快速移动时,摄像头、传感器会捕获大量的数据,为了更快速的处理数据,HBM 是最合适的选择。Chiplets 在设计过程中没有降低对内存的需求,随着异构计算(尤其是小 芯片)的发展,芯片会加速对高带宽内存的需求,无论是 HBM、GDDR6 还是 LPDDR6。

HBM 缓解带宽瓶颈,是 AI 时代不可或缺的关键技术。AI 处理器架构的探讨从学术界开始, 当时的模型简单,算力低,后来模型加深,算力需求增加,带宽瓶颈出现,也就是 IO 问题。 这个问题可以通过增大片内缓存、优化调度模型等方法解决。但是随着 AI 大模型和云端 AI 处理的发展,计算单元剧增,IO 问题更严重了。要解决这个问题需要付出很高的代价(比如 增加 DDR 接口通道数量、片内缓存容量、多芯片互联),这便是 HBM 出现的意义。HBM 用晶片 堆叠技术和硅联通层把处理器和存储器连接起来,把 AI/深度学习完全放到片上,提高集成 度,降低功耗,不受芯片引脚数量的限制。HBM 在一定程度上解决了 IO 瓶颈。未来人工智能 的数据量、计算量会越来越大,超过现有的 DDR/GDDR 带宽瓶颈,HBM 可能会是唯一的解决方 案。

巨头领跑,各大存储公司都已在 HBM 领域参与角逐。SK 海力士、三星、美光等存储巨头在 HBM 领域展开了升级竞赛,国内佰维存储等公司持续关注 HBM 领域。SK 海力士早在 2021 年 10 月就开发出全球首款 HBM3,2022 年 6 月量产了 HBM3 DRAM 芯片,并将供货英伟达,持续巩固其市场领先地位。三星也在积极跟进,在 2022 年技术发布会上发布的内存技术发展路 线图中,HBM3 技术已经量产。伴随着 ChatGPT 的火热,整个市场对于高性能计算卡等硬件产 品的需求水涨船高,上游大厂如三星和海力士目前的 DRAM 业务相关订单激增。GPU 公司英伟 达一直在要求 SK 海力士提供最新的 HBM3 内存颗粒。服务器 CPU 公司英特尔在全新的第四代 至强可扩展处理器当中也推出了配备 SK 海力士 HBM 的产品。

2.2.3.Chiplet 技术:全产业链升级降本增效,国内外大厂前瞻布局

Chiplet 即根据计算单元或功能单元将 SOC 进行分解,分别选择合适制程工艺制造。随着处 理器的核越来越多,芯片复杂度增加、设计周期越来越长,SoC 芯片验证的时间、成本也急 剧增加,特别是高端处理芯片、大芯片。当前集成电路工艺在物理、化学很多方面都达到了 极限,大芯片快要接近制造瓶颈,传统的 SoC 已经很难继续被采纳。Chiplet,俗称小芯片、 芯粒,是将一块原本复杂的 SoC 芯片,从设计的时候就按照不同的计算单元或功能单元进行 分解,然后每个单元分别选择最合适的半导体制程工艺进行制造,再通过先进封装技术将各 自单元彼此互联。Chiplet 是一种类似搭乐高积木的方法,能将采用不同制造商、不同制程 工艺的各种功能芯片进行组装,从而实现更高良率、更低成本。

Chiplet 可以从多个维度降低成本,延续摩尔定律的“经济效益”。随着半导体工艺制程推进, 晶体管尺寸越来越逼近物理极限,所耗费的时间及成本越来越高,同时所能够带来的“经济 效益”的也越来越有限。Chiplet 技术可从三个不同的维度来降低成本: (1)可大幅度提高大型芯片的良率:芯片的良率与芯片面积有关,Chiplet 设计将大芯片分 成小模块可以有效改善良率,降低因不良率导致的成本增加。 (2)可降低设计的复杂度和设计成本:Chiplet 通过在芯片设计阶段就将 Soc 按照不同功能 模块分解成可重复云涌的小芯粒,是一种新形式的 IP 复用,可大幅度降低设计复杂度和成 本累次增加。 (3)可降低芯片制造的成本:在 Soc 中的一些主要逻辑计算单元是依赖于先进工艺制程来 提升性能,但其他部分对制程的要求并不高,一些成熟制程即可满足需求。将Soc进行Chiplet 化后对于不同的芯粒可选择对应合适的工艺制程进行分开制造,极大降低芯片的制造成本。

Chiplet 为全产业链提供了升级机会。在后摩尔时代,Chiplet 可以开启一个新的芯片生态。 2022年 3 月,Chiplet的高速互联标准——UCIe(UniversalChiplet Interconnect Express, 通用芯粒互联技术)正式推出,旨在芯片封装层面确立互联互通的统一标准,打造一个开放 性的 Chiplet 生态系统。巨头们合力搭建起了统一的 Chiplet 互联标准,将加速推动开放的 Chiplet 平台发展,并横跨 x86、Arm、RISC-V 等架构和指令集。Chiplet 的影响力也从设计 端走到芯片制造与封装环节。在芯片小型化的设计过程中,需要添加更多 I/O 与其他芯片芯片接口,裸片尺寸必须要保持较大的空白空间。而且,要想保证 Chiplet 的信号传输质量就 需要发展高密度、大宽带布线的先进封装技术。另外,Chiplet 也影响到从 EDA 厂商、晶圆 制造和封装公司、芯粒 IP 供应商、Chiplet 产品及系统设计公司到 Fabless 设计厂商的产业 链各个环节的参与者。

乾坤未定,Chiplet 是国内芯片相关公司的重要发展机遇。(1)最先受到影响的是芯片 IP 设 计企业,Chiplet 本质就是不同的 IP 芯片化,国内类似 IP 商均有望参与其中,比如华为海 思有 IP 甚至指令集开发实力的公司,推出基于 RISC-V 内核的处理器(玄铁 910)阿里平头 哥半导体公司,独立的第三方 IP 厂商,如芯动科技、芯原股份、芯耀辉、锐成芯微、芯来等 众多 IP 公司等。(2)Chiplet 需要 EDA 工具从架构探索、芯片设计、物理及封装实现等提供 全面支持,为国内 EDA 企业发展带来了突破口。芯和半导体已全面支持 2.5D Interposer、 3DIC 和 Chiplet 设计。(3)Chiplet 也推动了先进封装技术的发展。根据长电科技公告,在 封测技术领域取得新的突破。4nm 芯片作为先进硅节点技术,是导入 Chiplet 封装的一部 分通富微电提供晶圆级及基板级封装两种解决方案,其中晶圆级 TSV 技术是 Chiplet 技术 路径的一个重要部分。

国外芯片厂率先发力,通过 Chiplet 实现收益。AMD 的 EPYC 率先采用了 Chiplet 结构,实现 了在服务器 CPU 市场上的翻身。随后,Ryzen 产品上重用了 EYPC Rome 的 CCD,这样的 chiplet 设计极好的降低了总研发费用。2023 年 1 月,Intel 发布了采用了 Chiplet 技术的第四代至 强可扩展处理器 Sapphire Rapids 以及英特尔数据中心 GPU Max 系列等。Sapphire Rapids 是 Intel 首个基于 Chiplet 设计的处理器,被称为“算力神器”。Xilinx 的 2011 Virtex-7 2000T 是 4 个裸片的 Chiplet 设计。Xilinx 也是业界唯一的同构和异构的 3D IC。

2.2.4.CPO 技术:提升数据中心及云计算效率,应用领域广泛

CPO(Co-packaged,共封装光学技术)是高速电信号能够高质量的在交换芯片和光引擎之间 传输。在 5G 时代,计算、传输、存储的带宽要求越来越高,同时硅光技术也越来越成熟,因 此板上和板间的光互连成为了一种必要的方式。随着通道数大幅增加,需要专用集成电路 (ASIC)来控制多个光收发模块。传统的连接方式是 Pluggable(可插拔),即光引擎是可插 拔的光模块,通过光纤和 SerDes 通道与网络交换芯片(AISC)连接。之后发展出了 NPO(Nearpackaged,近封装光学),一种将光引擎和交换芯片分别装配在同一块 PCB 基板上的方式。而 CPO 是一种将交换芯片和光引擎共同装配在同一个 Socketed(插槽)上的方式,形成芯片和 模组的共封装,从而降低网络设备的功耗和散热问题。NPO 是 CPO 的过渡阶段,相对容易实 现,而 CPO 是最终解决方案。

随着大数据及 AI 的发展,数据中心的需求激增,CPO 有着广泛的应用前景。在数据中心领 域,CPO 技术可以实现更高的数据密度和更快的数据传输速度,还可以减少系统的功耗和空 间占用,降低数据中心的能源消耗和维护成本,能够应用于高速网络交换、服务器互联和分 布式存储等领域,例如,Facebook 在其自研的数据中心网络 Fabric Aggregator 中采用了 CPO 技术,提高了网络的速度和质量。在云计算领域,CPO 技术可以实现高速云计算和大规模 数据处理。例如微软在其云计算平台 Azure 中采用了 CPO 技术,实现更高的数据密度和更快 的数据传输速度,提高云计算的效率和性能。在 5G 通信领域,CPO 技术可以实现更快的无线 数据传输和更稳定的网络连接。例如华为在其 5G 通信系统中采用了 CPO 技术,将收发器和 芯片封装在同一个封装体中,从而实现了高速、高密度、低功耗的通信。除此之外,5G/6G 用 户的增加,人工智能、机器学习 (ML)、物联网 (IoT) 和虚拟现实流量的延迟敏感型流量激 增,对光收发器的数据速率要求将快速增长;AI、ML、VR 和 AR 对数据中心的带宽要求巨 大,并且对低延迟有极高的要求,未来 CPO 的市场规模将持续高速扩大。

CPO 技术壁垒高,通信公司成为主要参与者,发展迅速。锐捷网络于 2022 年正式推出了首款 应用 CPO 技术的数据中心交换机,截至目前正式发布了多款同时应用硅光技术和液冷技术的 交换机,散热成本对比同性能的可插拔光模块设备降低了 35%。联特科技专注研发基于 EML (电吸收调制激器)、SIP(硅光)、TFLN(薄膜铌酸锂)调制技术的 800G 光模块,以及用于 下一代产品 NPO(近封装光学)/CPO(共封装光学)所需的高速光连接技术、激光器技术和 芯片级光电混合封装技术等。新易盛的光膜块 400G 已广泛应用在各大数据中心,更高端的 800G 已实现产业化出货走在行业引领前端,且光模块已突破低功耗极限,同时布局了光电共 同封装(CPO)技术,双重受益,行业需求增量大。中际旭创 400G 系列相干产品已逐步在国 内主流设备商和互联网云厂商中得到了应用,同时也发布了 800G 的解决方案,部分光模块 使用自家研制的硅光芯片。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

精选报告来源:【未来智库】。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1