当前位置:首页|资讯|AIGC|人工智能

AIGC专题:算力,AIGC时代的“卖铲人”

作者:烟树晚雁发布时间:2024-05-04

原标题:AIGC专题:算力,AIGC时代的“卖铲人”

今天分享的是AIGC专题系列深度研究报告:《AIGC专题:算力,AIGC时代的“卖铲人”

(报告出品方:招商证券

报告共计:28

海量/完整电子版/报告下载方式:公众号《人工智能学派》

要点

大模型参数量快速提升,Transformer架构成为发展趋势。根据最新论文对“涌现”效应的研究,当模型训练量超过1022后,模型准确率有了很大的提升,近年来,LP模型的发展十分迅速,模型的参数量每年以5至10倍的速度在提升,背后的推动力即大模型可以带来更强大更精准的语言语义理解和推理能力。Transformer架构通过计算数据之间的关系提取信息,相较于卷积神经网络具有更强大的运算效率,更适合参数和数据集庞大的自然语言处理学习。

基于GPT3大模型的训练/推理所需的算力及金额测算

训练端,以GPT3为例,完成一次大模型训练所需的算力需求量为3646PF·Days,若用10000张英伟达V100/A100训练则分别需要14.59/3.34天,对应训练费用分别为4.72/1.89百万美元。

推理端,以GPT3为例,1000个token的推理算力需求约为350TFLOPS,对应推理成本约为0.15美分。

英伟达GPU是当前最适合做训练的AI芯片。GPU提供多核并行计算的基础,且核心数众多,可以支撑大量数据的并行运算,英伟达Tensor Core技术能够通过降低精度,在性能方面实现数量级的提高。此外,针对大规模AI训练,英伟达推出DGX系统,包括A100、H100、BaseP0D、SuperPOD四款产品,其中,DGXA100、DGX H100为英伟达当前服务于AI领域的服务器产品,

1.1 模型不断增大,Transformer架构成为发展趋势

Al模型的参数量及数据集不断增大,Transformer架构成为最适合大模型的架构。1998年LeCun提出了第一个卷积神经网络,随即被用于美国邮政系统的手写邮编识别。但由于此类方法需要较大的数据集和较强的算力,此类方法在之后的十几年里的发展缓慢。由于通信和计算领域基础设施的完善,卷积神经网络在2012年之后迎来了爆发式的发展,模型和数据集都扩大了几个数量级。

2018年,研究发现当模型和数据集到达一定规模时,继续扩大模型和数据集给卷积神经网络带来的收益有限。Transformer架构通过计算数据之间的关系提取信息,更适合参数和数据集庞大的自然语言处理学习。

1.2 涌现理论:大模型是自然语言处理的核心

自然语言处理任务的准确率与训练量紧密相关,因此大模型在自然语言处理领域不可或缺。

根据最新的论文研究,当模型训练量小于1022时,模型在几个自然语言处理任务上的准确率都在0附近而当模型训练量超过1022后,模型的准确率有了很大的提升,该效应称之为“涌现”。

根据OpenAl的官网披露,GPT4大模型在参数量及数据集较GPT3有大幅提升,我们认为从GPT4在自然语言任务处理上所表现出的优异性能进一步表明,通过提高模型参数量、扩大数据集来提高模型性能的方法仍然没有碰到天花板。

1.3 大模型参数量快速提升

目前,大模型参数量快速增长,已经出现万亿级别的大模型。

近年来,NLP大模型的发展十分迅速,模型的参数量每年以5至10倍的速度在提升,背后的推动力即大模型可以带来更强大更精准的语言语义理解和推理能力。

2020年末,0penAI发布的GPT-3模型达到了1750亿参数的大小,相比2018年94M的ELMo模型,三年的时间整整增大了1800倍之多。按此趋势,预计两年后,会有100Tri1lion参数的模型推出。

1.4 英伟达GPU是当前最适合做训练的AI芯片

革命性的AI训练能,英伟达GPGPU是目前最适合做AI训练的芯片。

GPU提供多核并行计算的基础,且核心数众多,可以支撑大量数据的并行运算。AI场景训练和推理通常不涉及大量的分支运算与复杂的控制指令,更适合在GPU上进行。

英伟达Tensor Core能够通过降低精度,例如Transformer引擎中的8位浮点(FP8)、TensorFloat32(TF32)和FP16,在性能方面实现数量级的提高。此外,通过 CUDA-X库直接支持原生框架,实施可自动完成,从而在保持准确性的同时,大幅缩短从训练到收敛的时间。目前,国内外主流云计算厂商均使用英伟达GPU芯片作为其超级计算能力的底座。

报告共计:28页

海量/完整电子版/报告下载方式:公众号《人工智能学派》


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1