当前位置:首页|资讯|AIGC

国产 AI 芯片的百倍算力需求!——AIGC 系列全产业链上市公司梳理

作者:每刻看点发布时间:2023-03-30

原标题:国产 AI 芯片的百倍算力需求!——AIGC 系列全产业链上市公司梳理

AI 芯片是大模型的基础。AI 芯片主要分为训练和推理两类芯片,云和端对训练和推理芯片要求不同,目前主流架构包括 GPU、FPGA 和 ASIC 三类,通用性 GPU>FPGA>ASIC,性能功耗比 GPU<FPGA<ASIC。

四大 AI 芯片技术路线,均围绕打破英伟达 CUDA 生态垄断展开。英伟达凭借 CUDA、 cuDNN 和 TensorRT 等软件工具链以及和 Tensorflow 的深度绑定构筑了极高的生态壁垒,2021 年 GPU 市占率超 80%,高性能 AI 芯片 A100、H100 被禁止向中国出口后,快速推出 800 系列合法出口中国;寒武纪复制英伟达成长之路。

GPT-4 参数量高达 100 万亿,是 GPT-3 的 500 倍以上!即使考虑到 AI 芯片能力的提升(从当前主流的 A100 升级至 H100),仍然需要巨量的额外增量投资。

AI 芯片+AI 服务器,受益于 AIGC+类 GPT 等应用的“鲶鱼效应”。原有英伟达等供给有限,所以国产 AI 芯片有理论上的爆发弹性,AI 服务器有成长空间。由于 AIGC、类 GPT 有“鲶鱼效应”,带来约百倍算力需求。而英伟达等供给解决需求有瓶颈(根据 IDC 咨询,预测 2025 年 AI 服务器市场空间仅仅 318 亿美元,21-25 年预计 CAGR 仅仅 19.5%),因此国产 AI 芯片在逻辑上有爆发弹性,此外 AI 服务器也有成长空间。

寒武纪思元 590 将是最早实现商业应用的接近英伟达 A100 性能的国产 AI 训练芯片。目前华为昇腾 910 性能超越英伟达 V100,但未达到 A100 水平,壁仞科技 7nm 通用 GPU 芯片 BR100 称其可与被禁售的英伟达 H100 一较高下,但尚未量产上市。寒武纪思源 590 芯片面积 800mm^2,和 A100 一样。内存带宽 2.7T,是 A100 1.8T 的 1.5 倍。HBM2 使用海力士,功耗达 350W-550W,FP32 算力到 80TFLops,目前已经客户送样测试阶段,在高性能国产 AI 芯片中进程最快,最有机会承接国内 AI 算法商对英伟达 A100、H100 的需求。

产业链公司:1)直接受益 AI 芯片需求崛起的寒武纪(思元 590 将是最早实现商业应用的接近英伟达 A100 性能的国产 AI 训练芯片)、海光信息(预计 2023 年底量产的 DCU3 性能与 NVDIA H100 性能持平)。2)AI 服务器供应商:浪潮信息、中科曙光、中兴通讯(通讯)、工业富联(电子)。

TMT 领域算力基建逻辑,也建议关注通信、电子相关公司。

通信——天孚通信、中际旭创、紫光股份、锐捷网络、新易盛等。此外也持续关注流量基 建主线的数据中心等环节供需变化,包括奥飞数据、润泽科技等,以及伴随算力增长的温 控散热环节,英维克等。

电子——GPU:景嘉微、好利科技;视觉芯片及 IP:思特威、富瀚微、芯原股份;服务器 存储及接口芯片:澜起科技、聚辰股份;CPU:海光信息、龙芯中科;FPGA 芯片:复旦 微、安路科技;数通/服务器 PCB:沪电股份、深南电路、生益科技、胜宏科技;光通信 芯片:源杰科技。

结论和投资分析意见

预计中国互联网大厂即将进入大模型“军备竞赛”期,国产 AI 芯片需求进入爆发 期,带动 AI 服务器进入快速成长期。

原因及逻辑

AI 芯片+AI 服务器,受益于 AIGC+类 GPT 等应用的鲶鱼效应。原有英伟达等供给 有限,所以国产 AI 芯片有理论上的爆发弹性,AI 服务器有成长空间。由于 AIGC、类 GPT 有鲶鱼效应,带来约百倍算力需求。而英伟达等供给解决需求有瓶颈(根据 IDC 咨询,预测 2025 年 AI 服务器市场空间仅仅 318 亿美元,预计 21-25 年 CAGR 仅仅 19.5%),因此国产 AI 芯片在逻辑上有爆发弹性,此外 AI 服务器也有成长空间。

有别于大众的认识

市场认为,英伟达 GPU 生态难以突破,我们认为,国产 AI AISC 性能在主流大模 型算法中已能毕竟英伟达主流 GPU 计算能力水平。

市场认为,国产 AI ASIC 水平竞争格局较差,我们认为,当前 AI ASIC 芯片供应商 较多,但主要互联网产商 AI 芯片采购较为集中。

AI 芯片:大模型的基础

人工智能芯片主要分为“训练(Training)”芯片和“推理(Inference)”芯片。“训练芯片”主要用于人工智能算法训练,即在云端将一系列经过标记的数据输入算法模 型进行计算,不断调整优化算法参数,直至算法识别准确率达到较高水平。“推理芯片” 主要用于人工智能算法推理,即将在云端训练好的算法模型进行裁剪优化变“轻”之后, 进入“实战”阶段,输入数据直接得出准确的识别结果。

不同用途(训练 or 推理)、不同应用场景(端-边-云)对 AI 芯片有着不同的要求。首先,训练芯片追求的是高计算性能(高吞吐率)、低功耗,但是推理芯片主要追求的是 低延时(完成推理过程所需要的时间尽可能短)、低功耗。其次,“端-边-云”三个环节 对 AI 芯片的不同要求见下表——其中端和边上进行的大部分是 AI“推理”,因此用于端 和边的 AI 芯片性能要求和上述推理芯片一致;大部分的训练过程是在云和数据中心进行, 训练过程对时延没有什么要求,因此需要保证 AI 芯片在尽可能保证较高算力的情况下,功 耗尽可能低,另外许多推理过程也是在云端进行。

目前用于人工智能深度/机器学习的芯片主要有 GPU、FPGA、ASIC 三类芯片。三类芯片用于深度学习时各有优缺点:(1)通用性:GPU>FPGA>ASIC,通用性越低,代表其适合支持的算法类型约少。(2)性能功耗比:GPU<FPGA<ASIC,性能功耗比越高越好,意味着相同功耗下运算次数越多,训练相同算法所需要的时间越短。

在不同的应用场景之下,已经形成了不同的 AI 芯片竞争格局。

1. 在云和数据中心 AI 芯片市场,“训练”和“推理”两个环节都是英伟达 GPU 一 家独大,几乎占据 90%以上份额,包括 AWS、微软 Azure、谷歌云、阿里云、 华为云、腾讯云在内的大部分公有云厂商上线的 AI 加速计算公有云服务绝大部分 都是基于英伟达 Tesla 系列 GPU。

(1)云端训练用的几乎全部是英伟达 GPU,公有云厂商中仅谷歌云一家除了提 供以英伟达 GPU 为主的云计算加速服务之外,还推出了基于自研 AI 芯片 TPU 的 深度学习训练服务;

(2)云端推理目前出现了基于 GPU、FPGA、ASIC 三种不同芯片云计算服务, 但是市场份额仍然以英伟达 GPU 为主,其中 AWS、阿里云、腾讯云、华为云等 公有云厂商均推出了 FPGA 加速计算云服务,另外 AWS 推出了基于自研 AI 芯片 Inferentia 的 ASIC 加速计算服务,华为云推出了基于自研 AI 芯片昇腾 310 的 ASIC 加速计算服务。

2. 在设备端和边缘计算“推理”市场,各类型芯片各自为阵,尚无绝对优势地位的 芯片厂商出现——手机市场以高通、华为、苹果原主控芯片厂商为主,自动驾驶、 安防 IPC 领域英伟达暂时领先。

(1) 手机:高通从骁龙820 开始,就已经具备第一代人工智能引擎 AI Engine; 高通从第三代 AI Engine 开始引入异构计算 CPU、GPU 和 DSP 的异构并 行计算;目前高通已经迭代至第四代,骁龙 855 是第一个搭载第四代 AI Engine 的 SoC。华为麒麟 970、980 分别引入寒武纪 IP(1A/1H),使 得手机 SoC 开始具备 AI 能力,在 2019 年 6 月华为发布麒麟 810,华为 与寒武纪合作终止,华为采用了自研 AI 芯片达芬奇架构(华为在 2018 年 推 出 了 达 芬 奇 架 构 , 对 标 寒 武 纪 智 能 处 理 器 IP — — Cambricon-1A/1H/1M)。苹果 2017 年发布的 A11 芯片也具备了 AI 能力,附带 Neural Engine 和开发平台 Core ML 用于机器学习。

(2) 安防 IPC:仍然以采用英伟达 Jetson 系列 GPU 为主。例如海康采用了英 伟达 JetsonTX1,大华睿智系列人脸网络摄像机采用的是英伟达 Tesla P4 GPU。另外国内三大安防厂商也在陆续采用 ASIC 芯片,例如海康、大华、 宇视在前端智能化摄像机中采用 Movidious 的 Myriad 系列芯片,大华 自研 AI 芯片用于新款睿智人脸摄像机。

(3) 智能驾驶: L3 级别以上自动驾驶芯片以英伟达 Drive 平台为主(包括 Xavier 和 Orin 两款 SoC);华为将昇腾 310 用于自动驾驶域控制器 MDC 上,2020 年已经通过车规级认证;英特尔 Mobileye 的 EyeQ4-5 被用在 L3-5 智能驾驶。但是目前整车厂和 Tier1 实际采用得最多仍然是以英伟 达 GPU 为主。(在低级别的 L1-L2 辅助驾驶上,采用的是 NXP、瑞萨等 厂商的 MCU 芯片,不涉及深度学习。)

(4) 智能音箱:目前智能音箱的语音语义识别均在云端完成推理计算,终端上 没有 AI 专用处理单元。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1