当前位置:首页|资讯|ChatGPT|OpenAI|生成式AI|人工智能

ChatGPT对GPU算力的需求测算与相关分析(中信证券)

作者:郭太侠发布时间:2023-02-21

1. ChatGPT是什么——OpenAI开发的聊天机器人,拥有创造能力

生成式AI:实现创造,部分领域的能力超越人类的基准水平

不同于分析式AI只能做些分析型或机械式的认知计算,生成式AI可以创造有意义并具备美感的东西,而且在某些情况下,其生成的结果可能 比人类手工创造的还要好。 机器可以分析数据,并针对不同用例需求找到相应的规律,且在不断迭代,变得越来越聪明,这种机器被称为“分析式人工智能” (Analytical AI),或者传统AI。机器并非如之前那样仅分析已有的数据,而是创造了全新的东西,这一新型的AI被称为“生成式人工智 能”(Generative AI)。 2017年谷歌推出一种用于自然语言理解的新型神经网络架构——Transformers模型,不但能生成质量上乘的语言模型,同时具有更高的可 并行性,大大降低了所需的训练时间。这些小样本学习模型,可以更容易地针对特定领域做定制修改。 2015-2020年,用于训练这些模型的计算量增加了6个数量级,其表现在手写、语音和图像识别、阅读理解和语言理解方面超过了人类的 基准水平。

预训练模型:大模型提高准确率,2018年开始步入快车道

预训练模型使得模型的训练可以被复用,大幅降低训练成本,但是前期需要大量的数据进行预训练。 预训练模型是一种迁移学习的应用,对句子每一个成员的上下文进行相关的表示,通过隐式的方式完成了语法语义知识的学习。预训练模型通过微调的方式具备很 强的扩展性,每次扩展到新场景时,只需要针对这个场景的特定标注数据进行定向的学习,便可以快速应用。

ChatGPT:基于OpenAI推出的深度学习模型GPT打造,成为迄今 增长最快的消费应用程序

ChatGPT(Chat Generative Pre-trained Transformer,聊天生成式预训练器)是OpenAI开发的聊天机器人,于2022年11月推出。它建立在 OpenAI开发的GPT-3大型语言模型之上,并使用监督学习和强化学习(人类监督)技术进行了微调。 虽然聊天机器人的核心功能是模仿人类谈话者,但ChatGPT是多功能的。例如,它可以编写和调试计算机程序,创作音乐、电视剧、童话故 事和学生论文;回答测试问题(有时根据测试的不同,答题水平要高于平均水平);写诗和歌词;模拟Linux系统;模拟整个聊天室等。

ChatGPT背后的公司为OpenAI,成立于2015年,由特斯拉CEO埃隆·马斯克、PayPal联合创始人彼得·蒂尔、Linkedin创始人里德·霍夫曼、创 业孵化器Y Combinator总裁阿尔特曼(Sam Altman)等人出资10亿美元创立。OpenAI的诞生旨在开发通用人工智能(AGI)并造福人类。 ChatGPT中的GPT(Generative Pre-trained Transformer),是OpenAI推出的深度学习模型。ChatGPT就是基于GPT-3.5版本的聊天机器人。 截至2022年12月4日,OpenAI估计ChatGPT用户已经超过100万;2023年1月,ChatGPT用户超过1亿,成为迄今增长最快的消费应用程序。 2023年2月,OpenAI开始接受美国客户注册一项名为ChatGPT Plus的高级服务,每月收费20美元;此外,OpenAI正计划推出一个每月42美 元的ChatGPT专业计划,当需求较低时可以免费使用。

算力需求:计算资源每3~4个月翻一倍,投入资金指数级增长

OpenAI预计人工智能科学研究要想取得突破,所需要消耗的计算资源每3~4个月就要翻一倍,资金也需要通过指数级增长获得匹配。在算力方面,GPT-3.5在微软Azure AI超算基础设施(由V100GPU组成的高带宽集群)上进行训练,总算力消耗约 3640PF-days(即每 秒一千万亿次计算,运行3640天)。 在大数据方面,GPT-2用于训练的数据取自于Reddit上高赞的文章,数据集共有约800万篇文章,累计体积约40G;GPT-3模型的神经网 络是在超过45TB的文本上进行训练的,数据相当于整个维基百科英文版的160倍。

2. GPGPU是什么——通用计算GPU,算力强大,应用于加速计算场景

GPU是什么?

GPU(Graphics Processing Unit,图形处理器):是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图 像加速和通用计算工作的微处理器。GPU是英伟达公司在1999年8月发表NVIDIA GeForce 256(GeForce 256)绘图处理芯片时首先提出的概念。 GPU应用场景 。 图形加速:此时GPU 内部的顶点渲染、像素渲染以及几何渲染操作都可以通过流处理器完成。 通用计算:计算通常采用CPU+GPU异构模式,由CPU负责执行复杂逻辑处理和事务处理等不适合数据并行的计算,由GPU负责计算密集型的 大规模数据并行计算。

从GPU到GPGPU的跨越,英伟达CUDA降低开发门槛

GPGPU(general-purpose GPU,通用计算图形处理器),利用图形处理器进行非图形渲染的高性能计算。为了进一步专注通用计算, GPGPU去掉或减弱GPU的图形显示部分能力,将其余部分全部投入通用计算,实现处理人工智能、专业计算等加速应用。 2007年6月,NVIDIA推出了CUDA(Computer Unified Device Architecture计算统一设备结构)。 CUDA是一种将GPU作为数据并行计算设备的软硬件体系。在CUDA 的架构中,不再像过去GPU架构那样将通用计算映射到图形API中, 对于开发者来说,CUDA 的开发门槛大大降低了。 CUDA 的编程语言基于标准C,因此任何有C 语言基础的用户都很容易地开发CUDA 的应用程序。由于这些特性,CUDA在推出后迅速发 展,被广泛应用于石油勘测、天文计算、流体力学模拟、分子动力学仿真、生物计算、图像处理、音视频编解码等领域。

2020年GPU全球市场254亿美元,独显市场英伟达份额约80%

根据Verified Market Research数据,2020年,全球GPU市场规模为254.1亿美元(约1717.2亿人民币)。随着需求的不 断增长,预计到2028年,这一数据将达到2465.1亿美元(约1.67万亿人民币),年复合增长率为32.82%。

市场研究机构Jon Peddie Research的最新数据显示,2022年二季度,全球独立GPU市场出货量同比增长 2.4% 至 1040 万台,但是较一季度环比则下滑了22.6%。 从市场份额来看,英伟达的独立GPU的市场份额从22Q1的75%增加到22Q2的79.6%,保持了与去年同期相当的份额。 AMD和Intel则分别占比20%/1%。

中国市场,GPU服务器在AI服务器中占比92%,占主导地位

据IDC数据,2021年,全球AI服务器市场规模达156亿美元,同比增长39.1%;IDC预测,2025年全球AI服务器市场规模将 达317.9亿美元,年复合增长率为19%。 IDC报告显示,2021年中国加速服务器市场规模达到53.9亿美元(约350.3亿人民币),同比+68.6%;预计到2026年将达 到103.4亿美元。年复合增长率为19%,占全球整体服务器市场近三成。根据IDC数据,2021年,GPU服务器以91.9%的份额占国内加速服务器市场的主导地位;NPU、ASIC和FPGA等非GPU 加速服务器占比8.1%。IDC预计2024年中国GPU服务器市场规模将达到64亿美元。 从行业的角度看,互联网依然是最大的采购行业,占整体加速服务器市场近60%的份额;2021年,用于推理工作负载的 加速服务器占比已经达到57.6%,预计到2026年将超过60%。

3. GPGPU的壁垒是什么——高精度浮点计算+CUDA生态

壁垒一——高精度浮点计算

CPU是串行处理器,而GPU是并行处理器。 在机器学习中,绝大多数任务会涉及到耗费时间的大量运算,而且随着数据集的增加,运算量会越来越大。解决这个问题的一个方法就是使 用多线程并行计算。 CUDA 核能够以相对稍慢的速度运行,但是能够通过使用大量运算逻辑单元(ALU)来提供很大的并行度。 每个 GPU 核都能运行一个独立的线程,对于矩阵相乘运算来说大大缩短了计算时间。 对于每个小片的结果可以由一组线程负责,其中每个线程对应小片中的一个元素。这个线程组将 A 的行小片和 B 的列小片一一载入共享内 存,在共享内存上对其做矩阵相乘,然后叠加在原有结果上。所以对于 2000×2000 的矩阵乘法,只需要 2000 次并行运行。 但是对于CPU来说,因为是串行计算的,所以需要4000000次运行。

人工智能的实现包括两个环节:推理(Inference)和训练(Training)

训练需要密集的计算得到模型,没有训练,就不可能会有推理。 训练是指通过大数据训练出一个复杂的神经网络模型,通过大量标记过的数据来训练相应的系统得到模型,使其能够适应特定的功能。 训练需要较高的计算性能、能够处理海量的数据、具有一定的通用性,以便完成各种各样的学习任务(大数据分析淘宝推荐“你可能感 兴趣的产品”模型)。 推理是指利用训练好的模型,使用新数据推理出各种结论。借助神经网络模型进行运算,利用输入的新数据来一次性获得正确结论的过 程。这也有叫做预测或推断(用户打开手机被推送“可能感兴趣的产品”)。

AI推理端:浮点型量化为整形数据,降低算力、加速推理、降低功耗

量化是通过一组离散符号或整数值去逼近一个连续信号的过程,利用低比特量化(权重或激活)可以在不影响精度的前提下加快推理阶段。随 着模型越来越大,需求越来越高,模型的量化自然是少不了的一项技术。 在低比特表达中(如FP16、INT16、FP8、INT8、INT4等),INT8因兼顾效率和精度,而被广泛采用。一方面,INT8的运行速度是 FP16/INT16的两倍,并且相比FP8,能被更多的硬件设备支持。另一方面,INT8的量化范围(-128~127)比INT4(-8~7)或其它更低 的比特(小于4比特)大,表达能力更强。 经过INT8量化后的模型:模型容量变小了,FP32的权重变成INT8,大小直接缩了4倍模型,运行速度可以提升,使用INT8的模型耗电量更 少,对于嵌入式侧端设备来说提升巨大。

4. GPGPU主要应用场景——AI计算和高性能计算

GPGPU在计算领域应用:AI计算和高性能计算

GPU在通用计算领域分为两种应用场景,人工智能 (AI) 计算和高性能计算(HPC) 。AI所需的计算力不需要太高精度。一些AI应用需要处理的对象是语音、图片或视频,运行低精度计算甚至整型计算即可完成推理或训练。 智能计算机是一种专用算力,它们在推理或训练等智能计算方面的确表现出色,但由于AI推理或训练一般仅用到单精度甚至半精度计算、 整型计算,多数智能计算机并不具备高精度数值计算能力,这也限制其在AI计算之外的应用场景使用。 英伟达新推出的H100芯片搭载Transformer 引擎,使用每层统计分析来确定模型每一层的最佳精度(FP16 或 FP8),在保持模型精度的同 时实现最佳性能,相较于上一代产品提供 9 倍的训练吞吐量,性能提升6倍。

高性能计算是一种通用算力,设计目标是提供完备、复杂的计算能力,在高精度计算上能力更强。应用场景包括行星模拟、分子药物设计等。 超级计算机主要测试的是双精度浮点运算能力(FP64)。对比单精度(32位,FP32)、半精度(16位,FP16)以及整数类型(如INT8、INT4)等, 数字位数越高,意味着人们可以在更大范围内的数值内体现0/1两个数值的变化,从而实现更精确计算。

AI芯片的三种较为主流的技术路线——GPU、FPGA和ASIC

AI芯片被称为AI加速器或计算卡,即专门用于加速AI应用中的大量计算任务的模块(其他非计算任务仍由CPU负责),面向AI计算应用的 芯片都可以称为AI芯片,包括GPU、FPGA、ASIC等。

FPGA更适合处理多指令流单数据流,从而适应于推理阶段

FPGA没有极致的性能特点与量产单价高是其未来发展的瓶颈,更适合用于细分、快速变化的垂直行业,应用面上较为狭窄。 优点:1. 突破冯诺依曼结构,可直接实现算法,没有指令译码和解读的过程,功效能耗比是CPU的10倍以上、GPU的3倍,处理速度和效 率要高于GPU。2. 可编译,灵活性很高,开发周期短。FPGA具有可编辑性,用户可以根据自身需求实现芯片功能的转换。基于FPGA灵 活编译的特点,其开发周期较短,上市速度快。FPGA更适合处理多指令流单数据流,从而适应于推理阶段。 缺点:1. 价格较高,规模量产后的单价更是远高于ASIC。目前FPGA的造价相比GPU更为高昂,如果规模量产后,其不像ASIC可以分摊 固定成本,存在单个芯片的编译成本,所以单价远高于ASIC。2. 计算能力和峰值性能不如GPU。 3. 灵活性占优的同时牺牲了速度与能耗。 效率和功耗上劣于专用芯片ASIC。4. FPGA的语言技术门槛较高。目前FPGA的设置要求用户用硬件描述语言对其进行编程,需要专业的 硬件知识,具有较高的技术门槛。

5. 国内GPGPU发展水平——落后海外5~10年,多点开花寻求突破

制造:目前国内AI芯片先进工艺多集中在7nm,国际大厂已经来到4nm

大陆的先进工艺设计(16nm及以下)集中于AI芯片(包含云端及智能驾驶芯片)、交换机芯片、CPU/GPU/DPU、矿机ASIC领域,这些领域各有一些 头部企业走在前列,但鲜有企业能够进入个位数先进制程。GPGPU和AI芯片因为去掉了图形渲染功能,功能相对单一,设计起来复杂度及难度较低。 先进制程芯片的设计成本大幅增加。设计一颗28nm芯片成本约5000万美元,而7nm芯片需要3亿美元,5nm则需要5.42亿美元。 若以麒麟的5nm工艺来对标,除了矿机ASIC中的比特大陆推出了基于最先进的5nm的矿机芯片,平头哥发布了自研5nm服务器芯片倚天710,中兴通 讯的7nm芯片已实现商用正在研发5nm芯片之外, 其他领域快的如有些国内自动驾驶芯片公司要量产7nm智能座舱芯片,互联网巨头的一些AI芯片在向5nm迈进,CPU/GPU/DPU领域大多企业还只是 规划向5nm迈进,大多数节点还在16nm或10nm之上,真正实现5nm芯片量产的较少。

IP:国内核心IP厂商,追赶国际厂商

自研IP越多,芯片设计上越有把握,产品的差异化更明显。但相对而言,资金、人员、时间上的成本投入也更高。 GPU IP自研需要36-48个月以及200个工程师,而采用外购IP的方式,可以减少12-18个月开发周期。 据集微网报道,GPU 的IP主要涉及三大类,一是模拟IP,包括PCIe、Displayport和HDMI等等,这方面国内厂商占有率较低;二是 Memory;三是数字IP,包括基于Arm或RISC-V的微控制器IP、编解码芯片IP以及最核心的GPU IP等。

来源:中信证券

报告内容节选如下:

资料下载方式:公众号《侠说》


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1