专家会系列纪要：ChatGPT对AI服务器的拉动

作者：水晶球财经网发布时间：2023-03-12

数据中心有三大基础，包括计算、存储、网络。AI服务器就是面向深度学习和神经网络需要的高度并行的数据计算，并且搭载了大量的计算内核和高带宽内存资源去支撑学习训练的应用平台。从硬件角度讲，AI服务器表现为异构形式服务器，包括：CPU+GPU、CPU+FPGA、CPU+TPU等形式。

AI服务器最大的提升在于更大的容量内存，提供更多的外置硬盘插头，支持各种高速的网络连接，网络模块主要表现在带宽的增强，适用于深度学习等应用场景。技术特点包括三方面。首先是超高计算性能，AI服务器带有许多计算内核和高带宽内存，就是HBM的专用硬件。另外还有高速IO性能、超强扩展性能两个特点。根据IDC的预测，2025年全球AI服务器的市场规模会达到317.9亿美元，五年的CAGR达23.2%。在全球的AI服务器的市场格局当中，浪潮信息排名第一。

中国AI服务器市场格局呈现一超多强，浪潮从2017年开始就占据过半市场份额，国内也涌现过华为、曙光等排名前三的厂家，但受贸易战的影响，市场形成一超多强的格局。AI服务器按应用场景分为训练服务器、推理服务器，按异构类型分为CPU+GPU、CPU+NPU、CPU+FPGA等。目前推理服务器应用场景会越来越广阔，这和AI落地有很大关系。2020年推理服务器占比51.5%，预计2026年会占到60%以上。

AI芯片目前以GPU为主，IDC数据显示，国内GPU服务器在2021年占国内服务器市场规模的比例超过88.4%，英伟达的产品占比超80%。国内主要能销售的加速服务器芯片以英伟达的V100S、A800为主，A100和H100已经禁供，推理服务器芯片包括：T4，A10，A40等，国内还有华为的Atlas系列的加速卡，寒武纪的思元390和590已经进入厂家测试阶段，比特的BM1684服务器还是以推理为目标，对标英伟达的T4。AI服务器厂商分为OEM、ODM、OBM、JDM。上游CPU以英特尔的至强系列为主，下游主要是互联网企业，整体议价能力受限严重。通用服务器毛利10%左右，AI服务器可以达到15%，整体来看服务器厂家的毛利率在11%左右。

2021年全球AI服务器市场规模156亿美元，浪潮信息占比20.9%，全球排名第一，浪潮开发的JDM模式，能够从客户的需求为出发点，与腾讯、百度、阿里、网易、科大讯飞等互联网大厂都有深入合作，帮助企业在图像、语音、视频、智能搜索等方面的AI提升算力。A100被禁售后，浪潮把对中国特供的A800做了集成，对应的服务器产品是NF5688M6，GPT的参数是1750亿，如果训练时间按3天去评估，大概需要243台NF5688M6去完成。新华三在2022上半年中国加速计算市场报告中以10.2%的市场份额在国内排第二，新华三在硬件层面针对不同的业务的服务器产品提供全面的解决方案，另外对不同的AI加速卡进行了适配，包括与英特尔合作的服务器端GPU，基于英特尔SE独显打造，这款产品是ST310,用于做云游戏。华为是鲲鹏+昇腾的计算生态，昇腾910、昇腾930在2018年发布，2019年实现量产，2019年1月华为发布高性能的数据中心CPU鲲鹏，华为积极与地方政府合作，打造鲲鹏的产业生态基地，鲲鹏服务器在三大运营商的中标情况非常客观。宝德的AI加速服务器包括两款系列产品，一款是基于英伟达GPU的服务器，一款是鲲鹏的服务器，宝德在信创市场很成功。思腾合力在2022上半年进入AI加速服务器排名前八的位置。安擎在中国的GPU服务器市场排第三，非GPU服务器市场排第二。ChatGPT主要依赖英伟达GPU，现在还能用的是V100、L40。

国内AI领域有竞争力的公司包括百度、华为、阿里，还有很多研究机构也参与了大模型的研发。GPT3在商业应用上已经表现了很高的稳定性。并且有更大的潜力，GPT3需要在1024张A100GPU上训练4天才能完成。GPT模型在算力需求方面，有三大产品，第一个是预训练，就是大模型的生产，还有微调、日常运营两块。微软Azure云服务平台对OpenAI的AI计算集群包括28.5个CPU核心、1万颗英伟达A100GPU、400Gbps的传输带宽。处理1750亿参数的大模型，需要大概2万颗A100，未来大模型商业化预计所需的数量会超过3万颗，国内云计算技术专家表明1万颗A100是做好AI大模型的算力门槛。

OpenAI在《LanguageModelsareFew-ShotLearners》中表示训练1746亿参数的GPT3所需算力约3640PFlop/s-day。从成本角度来讲，A800大概是12000美元，一台服务器通常搭载4–8个GPU，搭载A800的服务器单台大概会超过40万元，服务器的采购成本大概是数据中心建设成本的30%,一个智算集群建设成功的成本大概超过30亿元，每一次的训练成本超过1200万美元，每缩短7天，需要大概6000台A800服务器，就是4.8万颗A800卡。

ChatGPT的基础设施有三方面内容。

首先是底层芯片，第二个是分布式计算框架，包括PyTorch、TensorFlow，国内有百度的PaddlePaddle、华为的MindSpore，都是深度学习架构，在这个基础上才会有大模型产生。第三个是存储设施用于存储虚拟数据和模型参数，包括云存储和本地存储。另外AI大模型对高带宽网络有很高要求，需要几百G以上的RDMA的带宽连接。ChatGPT对产业链的影响包括多方面，第一个是AI模型的生产，包括开源框架，包括PyTorch、TensorFlow等。还有AI服务器、AI超算中心。来源海通计算机