当前位置:首页|资讯|AI大模型

AI大模型专题报告:大模型进展2.0

作者:AIGC资源社发布时间:2024-05-07

原标题:AI大模型专题报告:大模型进展2.0

(精选报告来源:幻影视界)

AI大模型市场表现与竞争格局发生变化,Kimi成为国产大模型曙光。

市场上的大模型层出不穷,以Kimi为代表的产品凭借其在长文本处理领域的卓越能力,迅 速成为用户访问量最高的产品,打破了现有竞争格局。Kimi在中文领域对GPT-4、Claude等国际大模型展现出明显优势,并通过不断的技术迭代和用户体验优 化,实现了用户流量的激增和市场的快速扩张。公司认为,Kimi的AI-Native产品核心价值在于提供个性化交互,其长文本上下文处理能力(Long Context)能大 幅减少模型定制成本,解决90%的模型定制问题。

2024年3月下旬,Kimi进一步将上下文处理能力提升至200万汉字,随着用户流量的激增,服务连续进行了5 次扩容。公司在C端致力于将Kimi打造成超级应用,成为AI原生交互的入口;在B端,通过Moonshot AI开放平台提供与OpenAI兼容的API,内测期间已有法 律、游戏阅读等领域应用进行测试,反馈良好。随着Kimi应用访问量的持续增长,预计将再次拉动算力需求的快速增长,推动AI行业的算力基础设施发展。

多模态大模型拉动AI训练、推理算力需求增长

大模型训练算力测算:

  • 训练过程可分前向传播(Forward Pass)和反向传播(Backward Pass)。
  • 前向传播:输入数据(例如图像、文本等)通过神经网络的各层进行传递,以得到输出结果,包含输入数据与权重矩阵相乘、应用激活函数等操作,目的为将计算网络预测 输出,并将其与实际目标值比较,计算损失函数(Loss Function)的值。
  • 反向传播:一种高效计算梯度算法,从输出层开始,沿着网络层次结构向输入层反向传播,计算每个权重的梯度(注:梯度表示权重对损失函数贡献的大小);同时,在计 算出所有权重的梯度后,使用优化算法更新权重,达到减小损失函数值的目的。
  • 计算次数:一次前向传播需要一次计算,一次反向传播需要两次计算(计算梯度+权重更新),则完成一次神经网络迭代需要对所有输入的数据和模型参数进行3次计算;每 一次计算就是矩阵运算,对于一次矩阵运算需要进行一次乘法及加法(共计2次浮点运算),即对于每个Token、每个模型参数,需要进行2 × 3 Flops = 6次浮点运算。以GPT- 3大模型训练为例,模型参数量为175B,训练Token数量为300B,采用稠密(Dense)模型,其需要的训练总算力为175B × 300B × 6 = 3.15/span>23 FLOPs。
  • 所需算力卡数量及时间:假设使用业内FLOPS最大的利用率来测算(此处取46.2%),单卡A100 FP16精度下算力为312 TFLOPS,则3.15 /span>23 FLOPs/(312 TFLOPs × 46.2% × 3600s × 24h/天)= 2.53万张A100/天,即若使用1000张A100,大约训练一遍GPT-3需要25.3天。

大模型推理算力测算:

  • 推理过程主要包括分词(Tokenize)、嵌入(Embedding)、位置编码(Positional Encoding)、Transformer层、Softmax。推理主要计算量在 Transfomer解码层,对于每个token、每个模型参数,需要进行2 × 1 Flops = 2次浮点运算,则单词推理算力消耗为模型参数量 × (提问Tokens + 回答Tokens) × 2。
  • 以GPT-3单次推理为例,假设用户每次提问20 Tokens,ChatGPT回答300 Tokens,模型参数量为175B,则单次推理算力需求为175B × (20 Tokens + 300 Tokens) ×2 = 1.12/span>14 FLOPs,若使用单张A100 GPU进行推理,假设芯片利用率为46.2%,则完成单次所需时间为1.12 /span>14 FLOPs/(312 TFLOPs × 46.2%)=0.78s

图像模态拉动AI算力需求增长

  • 图像训练数据大幅提升训练Token量。以BEIT方法为例,单一图片训练素材可以有两种表达形式,即Image Patches和Visual Tokens。
  • Image Patches:将图片分成N=HW/P2个展平的2D块,每个image patches会被展平成向量,并对其进行线性变换操作,进而得到一系列展 平的2D块的序列;随后使用类BERT的子监督训练方式(Masked Image Modeling),即随机隐藏部分Image Patches,让模型对隐藏的部分 进行预期,进而不断计算预测的Patches和真实的Patches之间的差异,并将该差异作为Loss函数进行反向传播来更新参数。
  • Visual Tokens:BEIT通过DVAE(Discrete Variational Autoencoder,核心原理是试图构建一个从隐变量Z生成目标数据X的模型)中的Image Tokenizer,将单一图片训练素材转化为离散的Tokens(即隐变量),再通过生成器(Decoder)重建原图。
  • 图片对训练数据量的提升
  • 以Image Patches方法为例,1张图片可以分割为N=HW/P2个2D块(即视为输入的Tokens),其中(H,W)为输 入图片的分辨率,(P,P)是2D块的大小,在《BEIT: BERT Pre-Training of Image Transformers》实际操作中,有1张224*224大小的 图片分割成16*16大小的2D小块,即单一图片相当于(224*224)/(16*16)=196个Tokens。而在纯文本训练素材中,单一单词约为4/3个 Token,则1张图片(分辨率224*224)约等于147个单词。根据上文所述,AI训练算力需求 = 模型参数量 × 训练Token量 × 6,图片 训练素材的加入,拉动训练Token量的大幅增长,进而大幅提升AI训练算力需求。
  • 增量测算:a)数据量:根据《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning (Pablo等著,2022年)》披露数据,2022年全球图片数量在5/span>10-2/span>11个,我们取中间值(即1 /span>11个),选取常用图片分辨率 (1024×768),则单张图片对应(1024*768)/(16*16)=3072个Tokens,则全部图片对应3.072 /span>14个Tokens。b)算力需求:假设使用 这些图片数据对一个5000亿参数模型进行训练,则对应的AI训练算力需求 = 500B × 3.072 /span>14 × 6 = 9.216e26 FLOPs。c)训练卡 需求:以英伟达H100为例,在FP16精度下算力为1979 TFLOPS,仍假设芯片利用率为46.2%,则9.216 /span>26 FLOPs/(1979 TFLOPs × 46.2% × 3600s × 24h/天 × 30天/月)= 38.89万张H100/月,即完成对图片数据的训练需使用38.89万张H100训练一个月(针对单一模型), 假设全球有5家厂商使用图片素材进行自研大模型训练,则需要194.45万张H100训练一个月。

视频训练数据大幅提升训练Token量。

以字节跳动最新提出《MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation》方法为例,该 模型是一个多阶段端到端视频生成模型,具体可分为以下4个关键模块:

  • Text-to-Image模块(文本到图像):从给定的文本提示,生成概括所描述场景的高分辨率图像(分辨率为1024*1024);
  • Image-to-Video模块(图像到视频):通过文本提示和生成的图像创建关键帧(32帧),使得静态图像动态化(分辨率为600*600);
  • Video-to-Video模块(视频到视频):增强并细化视频帧的内容,并拓展至更高的分辨率(分辨率为1048*1048);
  • Video Frame Interpolation(VFI,帧插值)模块:在关键帧之间插入帧以平滑视频运动(94帧),确保动作流畅和时间一致性。
  • 其中,Text-to-Image模块(文本到图像)的训练同前文图像模态训练相似,除了BEIT方法外,OFA等方法亦可得到不错的Text-to-Image模 型。

报告原文节选如下:

本文仅供参考,不代表我们的任何投资建议。【幻影视界】整理分享的资料仅推荐阅读,用户获取的资料仅供个人学习,如需使用请参阅报告原文。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1