当前位置:首页|资讯|ChatGPT|AIGC|人工智能

以ChatGPT为代表的AIGC浪潮催生新形式海量算力需求,数据中心行业新一轮抢跑机会涌现——汉能云生态观察

作者:汉能投资发布时间:2023-03-16

作者 |  邵昀明 纪元 

「云生态观察」是汉能投资联合中关村云计算产业联盟(以下简称“云联盟”)共同推出的行业趋势洞察栏目,旨在通过该内容帮助大家了解云生态行业发展趋势、投资机会。该栏目以《2022年中国云计算生态蓝皮书》为基石,与“云生态影响力论坛” 共同组建了汉能投资和云联盟云生态的一体两面,希望通过线上线下的形式继续推动云产业与数字融合、加速生态建设、扩充生态维度、提高生态效能。

本期为「云生态观察」第三期,其他两期分别为: “ 信创驱动下的金融产业数字化将呈现何种发展趋势? ”与“ 数据中心:厚重外壳下的春雷阵阵,云生态基础设施的演变升级 ”。 

前言

ChatGPT惊艳的表现迅速提高全行业对于以其为代表的AIGC(AI-Generated Content,人工智能生成内容)商业前景的预期,产业链结构基本明晰,上下游相关细分产业百花齐放。其中,各大厂的模型预训练、迭代和运营催生对数据中心(尤其是人工智能数据中心)的多维度大规模需求,而相辅相成的,数据中心算力承载量的增长也会持续加速提升模型质量、推动商业化落地。

在谨慎评估商业化进程的假设下,汉能预计未来一到两年人工智能数据中心会有400-500MW较为确切的新增IT容量需求,主要由头部大厂的模型训练和较成熟场景的商业化落地需求组成。而在更为乐观的AIGC商业化前景假设下,对人工智能数据中心的需求或可达到逾千MW水平。

以ChatGPT为代表的AIGC浪潮掀起北美新一波算力基建扩容升级

微软。 2019年,微软做出了与ChatGPT的开发者OpenAI达成合作这一极富远见的关键决策,并安排Microsoft Azure为OpenAI提供训练及使用所需的算力。该超级计算机拥有超过28.5万个CPU核心、1万个GPU和400 GB/s的GPU服务器网络传输带宽,OpenAI依托此超算基础设施,凭借参数量的提升获得了模型性能的关键性突破。 

谷歌。 除了紧急推出以LaMDA算法为底层算法的ChatGPT对标产品Bard外,谷歌已通过对算力基础设施的投资规划表达其对AIGC前景的信心和争夺市场的决心。2023年3月8日,Google CFO Ruth Porat在the Morgan Stanley Technology, Media and Telecom Conference提到2023年Capex结构发生重大调整,有关数据中心和服务器等算力技术设施的预算大幅上调。 

Ruth Porat, CFO Alphabet and Google: So, CapEx for 2023 will generally be in line with 2022, and you're right, that is because real estate CapEx is down meaningfully, and CapEx around our technical infrastructure is up meaningfully. That's for both data centers and for servers, and it's primarily in support of Cloud and everything that we're doing in AI, and as I said, in general, that comes to ballpark in line with last year. 

Facebook。 2023年2月,Meta宣布暂停全球数据中心建设,开始着力于重新评估和调整机房来满足AI方向的算力需求。2023年Capex也攀升至USD 39B。 

Dave Wehner, CFO of Meta:There is some increased capital intensity that comes with moving more of our infrastructure to AI. It requires more expensive servers and networking equipment, and we are building new data centers specifically equipped to support next-generation AI hardware... Second, we are making ongoing investments in our data center footprint... We believe the additional data center capacity will provide us greater flexibility with the types of servers we purchase and allow us to use them for longer, which we expect to generate greater cost efficiencies over time. 

亚马逊。 2023年2月21日,AWS宣布与AI初创公司Hugging Face拓展合作关系,Hugging Face将在AWS上开发针对ChatGPT的开源竞品,构建开源语言模型的下一个版本Bloom。Bloom据悉将在AWS制造的专有人工智能芯片Trainium上运行。 

Digital Realty。 2023年2月Earnings call宣布2023年Non-recurring Capex预计为23-25亿美元,同比2022年度有显著跳跃、业务继续保持快速扩张趋势。该指标2021年、2022年分别为21.76亿、22.11亿美元。 

Equinix。 2023年2月Earnings call宣布2023年Non-recurring Capex预计为25-27亿美元,较2022年度大幅回弹。该指标2020年、2021年、2022年分别为21.22亿、25.52亿、20.84亿美元。 

以ChatGPT为代表的AIGC浪潮在国内起势趋向确切,算力需求即将凸显

政策端,国家明确扶持和引导态度。国务院新闻办公室于2023年2月24日就“深入实施创新驱动发展战略 加快建设科技强国”举行发布会,会上科技部高新技术司司长陈家昌表示:“科技部将把人工智能作为战略性新兴产业,作为新增长引擎,继续给予大力支持。一是推动构建开放协同的人工智能创新体系,加快基础理论研究和重大技术攻关。二是推动人工智能与经济社会深度融合,在重大应用场景中锤炼技术,升级迭代,培育市场。三是推动建立人工智能安全可控的治理体系。四是全方位推动人工智能开放合作。”

产业端,国内科技大厂依托长期积累也逼近技术突破拐点。百度、腾讯、字节跳动等多家科技大厂均有千亿级别的参数积累,技术储备也在持续迭代、始终紧跟行业前沿。

图一 国内外科技公司AIGC技术布局及相关应用场景[1]

百度。2019年推出的文心大模型与OpenAI的GPT模型类似,迄今已迭代多轮,从单一的自然语言理解延伸到包括视觉、文档、文图、语音等多模态多功能,因此文心一言所基于的ERNIE系列模型也已具备较强泛化能力和性能。以最新发布EARNIE 3.0 Zeus为例,该模型参数规模已达到千亿级别。

图二 中国大模型市场2022年评估结果 – 百度文心

据IDC中国评估结果显示,百度文心大模型在产品能力呈现出较强技术实力和平台积累,“文心大模型+深度学习平台”创新了人工智能研发应用范式,满足市场大规模落地需求,达到行业前端水平;应用能力方面,百度已在金融、能源、制造、城市、传媒、互联网等行业拥有实际落地的标杆案例,截止2022年11月,文心已累计发布11个行业大模型,且积极布局,致力于解决用户实际痛点,并参与到客户业务流程关键环节中,其应用深度与广度方面在评估厂商中位列前沿;在生态能力方面,百度文心大模型在社区用户的基础上,可以实现与开发者、行业用户、上下游产业的正向互动,在评估厂商中处于行业领先位置。

更为直观的是,在百度正式发布文心大模型前,已有多家公司宣布接入,成为首批生态合作伙伴,涉及领域均依托自有优势资源、探索方向也切实可行,百度文心大模型商业化落地前景可期。

图三 百度文心大模型部分生态合作伙伴及合作方向[2]

阿里。阿里巴巴达摩院在2020年初启动中文多模态预训练模型M6项目,同年6月推出3亿参数的基础模型;2021年1月模型参数规模达到百亿级别,成为世界上最大的中文多模态模型;2021年5月,具有万亿参数规模的模型正式投入使用,追上了谷歌的发展脚步;2021年10月,M6的参数规模扩展到10万亿,成为当时全球最大的AI预训练模型。此外阿里也不断深化人工智能基础设施建设,研发了含光800人工智能专用芯片和超大规模机器学习平台,建成有单日数据处理量超600PB的超大计算平台,并以云服务的方式对外分享。

华为。2018年华为首次公布其人工智能战略。华为基于云化方案在公司内部部署超过10万台鲲鹏、昇腾设备和ModelArts,有效支撑内部四大人工智能实验室的研发创新工作,覆盖从研发、生产、办公、交付到销售的全业务场景。

腾讯。腾讯混元AI大模型能够支持广告智能制作,即利用AIGC将广告文案自动生成为广告视频,大大降低了广告视频制作成本。巨大的应用前景将推动市场规模的快速增长。

京东。京东将推出定位为优势、高频、刚需的产业版通用ChatGPT的产品ChatJD。ChatJD将通过在垂直产业的深耕,快速达成应用落地的标准,并不断推动不同产业之间的泛化,形成更多通用产业版ChatGPT,构建数据和模型的飞轮,以细分、真实、专业场景日臻完善平台能力,最终反哺和完善ChatJD的产业应用能力。

以ChatGPT为代表的AIGC浪潮引发的算力需求测算

整体而言,AI大模型时代的算力需求增长已经远超历史预期。据OpenAI测算,自2012年以来,全球头部AI模型训练算力需求3-4个月翻一番,每年头部训练模型所需算力增长幅度高达10倍。而摩尔定律认为,芯片计算性能大约每18-24个月翻一番,因此两者间的不匹配势必将带来对算力基础设施需求的快速增长。

图四 大模型时代算力需求快速增长[3]

具体的,算力需求可以拆分落到训练和推理两个主要方面。

  • 训练方面: 根据OpenAI训练集群模型估算结果作为参考,1746亿参数的GPT-3模型大约需要375-625台8卡DGX A100服务器(对应训练时间10天左右),对应A100 GPU数量约3000-5000张。结合上述各厂商研发进度和参数规模,我们判断国内至少有六家厂商需要同等规模算力进行AI大模型训练。单台DGX A100算力为5 PFlops,则可以合理推测出确定性较大的训练方面的新增算力需求为11,250-18,750 PFlops。
  • 推理方面: 以A100 GPU单卡单字输出需要350ms为基准计算,假设每日访问客户数量为2,000万人,单客户每日发问ChatGPT应用10次,单次需要50字回答,则每日消耗GPU的计算时间为972,222个运行小时(2*10^7*10*50*350ms = 3.5*10^12ms = 972,222h),因此,对应的GPU需求数量为40,509个。 [4] 换算成算力约25,000 Pflops。 

Midjourney创始人David Holz表示,目前Midjourney只有数十万用户,已经需要极高的算力来支持。如果用户量达到1,000万人,那么世界上没有足够的算力来支持[5]。

除了上述较确切的新增算力需求外,还有许多可能的算力需求点: 

  • 从基础层大模型向应用层特定场景迁移过程中(中间层开发垂直化、场景化、个性化的模型和应用工具以及应用层开发面向C端用户的文字、图片、音视频等内容生成服务),需要使用特定领域数据进行模型二次训练。

图五 AIGC产业生态体系的三层架构[6] 

  • 模型预开发阶段可能需要多次训练过程以达到理想效果。此外大模型不是静态的,需要不断进行模型调优,以确保模型处于最佳应用状态。上述多次预开发和持续的多轮次迭代会带来额外的算力需求。 
  • 近年由于引入了带有Attention机制及Transformer网络,模型的大小每年以1-2个数量级的速度提升,参数量由亿级往千亿级过渡(BERT-Large模型参数量仅有340M,而GPT-3的参数量达到175B),算力需求也随之呈现同比例跨量级增长。 

图六 Transformer Model带来的新一轮算力需求激增[7]

人工智能数据中心:承载AIGC算力需求的专业底座

人工智能计算中心是以基于人工智能芯片构建的人工智能计算机集群为基础,涵盖了基建基础设施、硬件基础设施和软件基础设施的完整系统,主要应用于人工智能深度学习模型开发、模型训练和模型推理等场景,提供从底层芯片算力释放到顶层应用使能的人工智能全栈能力。在当前与云结合的发展趋势下,还可以包括云底座(Iaas、Paas等)。 

图七 人工智能计算中心总体架构[8] 

人工智能计算中心借鉴了超级计算中心和云计算数据中心大规模并行计算和数据处理的技术架构,但是以人工智能专用芯片为计算算力底座,同时软件架构和业务架构也与前两者完全不同,是当前人工智能快速发展和应用所依托的新型算力基础设施。 

  • 超级计算中心一般服务于科研院所、高校和企事业单位,以及一些国家重大科研项目等,应用领域有模拟仿真、油气勘探、天文学、计算化学、流体力学、生物信息学、气象预报和环境模拟等。超级计算中心以双精度浮点运算性能为主要的性能衡量指标,提供用于数值模拟的超级计算能力。
  • 云计算数据中心旨在实现计算资源需求向按需定购模式的转变,通过分布式计算和虚拟化技术搭建服务器集群,以在网络上传递、展示、计算、存储数据信息。

t图八 人工智能计算中心(智算中心)与超算中心、云数据中心对比

当前人工智能计算中心的建设模式主要为政府主导和龙头企业自建双轨并行,在此背景下,多数省份散布有政府主导的人工智能计算中心项目,而长三角由于较成熟的商业应用前景和较高的产业集中度成为人工智能龙头企业自建项目的热门地区。据ICPA智算联盟统计,截至2022年3月,长三角地区已投运人工智能计算中心数量占全国38%,已投运人工智能计算中心算力占全国60%以上。 

图九 全国已建及在建人工智能计算中心布局情况(截至2022年3月)[9]

政府主导案例:鹏城实验室与华为合作共同构建鹏城云脑,计算能力预计达到1 EFlops,存储容量预计64 PB,将建设成软硬件一体化的人工智能开源开放平台和基础公共算力平台。 

企业自建案例:商汤科技上海临港自建有“商汤科技人工智能计算中心”,占地面积约80亩,总投规模逾50亿元人民币;其中一期将安置5,000个等效8KW的机柜,建成算力规模预计约3,740 PFlops。 

因此以上述未来算力需求推算结果(36,250-43,750 Pflops)为前提,以商汤科技AIDC(40MW,3,740 Pflops)为标准,谨慎预计未来一到两年人工智能数据中心有400-500MW较为确切对的新增IT容量需求。而在更为乐观的AIGC商业化前景假设下,对人工智能数据中心的需求或可达到逾千MW水平。 

以ChatGPT为代表的AIGC浪潮对国内数据中心行业的其他具体影响

人工智能数据中心特有的异构AI服务器对数据中心设计和制冷提出更高的要求。 相较于传统的服务器,AI服务器需要配备GPU/NPU/FPGA/ASIC等芯片的支持高算力。CPU从提高频率/增加计算单元/增加核数等方面提升计算性能时,受制于成本/功耗/技术难度,已难以匹配AI对算力需求的高速增长。因此异构形式的AI服务器应运而生,通常以CPU为中央处理器,同时搭载AI加速芯片作为协处理器。 

但此类异构服务器相比于普通服务器,对功耗/存储/通信/散热等有更高的要求。普通服务器的标准功耗一般在750-1200W,而AI服务器由于配置多个系统级芯片,在运行AI模型时会产生更多的能耗。譬如DGX A100服务器,其搭载8颗A100 80GB GPU,最大系统功耗达到6,500W。而对于机柜来说,通常19英寸机柜和42U机柜是标准机柜,参考高度1U=4.445厘米,宽度19英寸约为48.26厘米,DGX A100宽度上基本约为19英寸,高度上大约为5.94U,以标准机柜42U为参考,极限程度可以放下约7台DGX A100服务器,最大功率可达到约45.5KW。因此为了确保服务器能够长期处于适合的工作温度,数据中心的设计和散热会受到更严格的考验。 

AIGC所需的大模型训练或将加速东数西算格局构建。 AI大模型的训练任务需要高算力、高能耗的支持,同时训练任务对于时延及网络的要求相对较低,适配西部数据中心的比较优势。而且西部地区普遍自然条件优越,先天性便于低成本解决异构服务器的散热问题。 

AI模型训练消耗大量算力导致的惊人碳排放量或将加快数据中心ESG发展。 有研究人员对Transformer、ELMo、BERT、GPT-2、GPT-3等进行了碳排放研究,他们在单个GPU上对每个模型进行了为期一天的训练并测量其功耗。测试结果表明模型训练的计算和环境成本与模型大小成正比。GPT-3模型训练的二氧化碳排放量为552吨[10]。在此背景下,数据中心ESG进程或需进一步提速。Bloc Venture的David Leftley表示:“现在全球企业都在追求净零碳排放,而我们却在通过与AI聊天机器人对话的高能耗方式给地球烧出一个洞。”[11] 

图十二 大模型训练碳排放统计 

[1] 《AIGC行业深度报告(4)》,华西计算机团队,2023年3月2日 

[2] 文心一言生态圈,https://cloud.baidu.com/news/news_c5655de1-51e7-40e1-8811-a4e65ac6e387 

[3] arXiv:2202.05924 

[4] 《ChatGPT启新章,AIGC引领云硬件新时代》,中金公司研究部 

[5] https://www.theregister.com/2022/08/01/david_holz_midjourney/ 

[6]  AIGC发展趋势报告 2023:迎接人工智能的下一个时代,腾讯研究院 

[7] https://blogs.nvidia.com/blog/2022/03/25/what-is-a-transformer-model/ 

[8]《人工智能计算中心发展白皮书》,中国科学技术信息研究院 

[9] ICPA智算联盟 

[10] https://arxiv.org/pdf/1906.02243.pdf 

[11] https://www.ft.com/content/9c5f7154-5222-4be3-a6a9-f23879fd0d6a 

本文来自微信公众号“汉能投资集团”(ID:TheHinaGroup),36氪经授权发布。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1