AI大模型专题报告：大模型进展2.0

作者：AIGC资源社发布时间：2024-05-07

(精选报告来源：幻影视界)

AI大模型市场表现与竞争格局发生变化，Kimi成为国产大模型曙光。

市场上的大模型层出不穷，以Kimi为代表的产品凭借其在长文本处理领域的卓越能力，迅速成为用户访问量最高的产品，打破了现有竞争格局。Kimi在中文领域对GPT-4、Claude等国际大模型展现出明显优势，并通过不断的技术迭代和用户体验优化，实现了用户流量的激增和市场的快速扩张。公司认为，Kimi的AI-Native产品核心价值在于提供个性化交互，其长文本上下文处理能力(Long Context)能大幅减少模型定制成本，解决90%的模型定制问题。

2024年3月下旬，Kimi进一步将上下文处理能力提升至200万汉字，随着用户流量的激增，服务连续进行了5 次扩容。公司在C端致力于将Kimi打造成超级应用，成为AI原生交互的入口；在B端，通过Moonshot AI开放平台提供与OpenAI兼容的API，内测期间已有法律、游戏阅读等领域应用进行测试，反馈良好。随着Kimi应用访问量的持续增长，预计将再次拉动算力需求的快速增长，推动AI行业的算力基础设施发展。

多模态大模型拉动AI训练、推理算力需求增长

大模型训练算力测算：

训练过程可分前向传播（Forward Pass）和反向传播（Backward Pass）。
前向传播：输入数据（例如图像、文本等）通过神经网络的各层进行传递，以得到输出结果，包含输入数据与权重矩阵相乘、应用激活函数等操作，目的为将计算网络预测输出，并将其与实际目标值比较，计算损失函数（Loss Function）的值。
反向传播：一种高效计算梯度算法，从输出层开始，沿着网络层次结构向输入层反向传播，计算每个权重的梯度（注：梯度表示权重对损失函数贡献的大小）；同时，在计算出所有权重的梯度后，使用优化算法更新权重，达到减小损失函数值的目的。
计算次数：一次前向传播需要一次计算，一次反向传播需要两次计算（计算梯度+权重更新），则完成一次神经网络迭代需要对所有输入的数据和模型参数进行3次计算；每一次计算就是矩阵运算，对于一次矩阵运算需要进行一次乘法及加法（共计2次浮点运算），即对于每个Token、每个模型参数，需要进行2 × 3 Flops = 6次浮点运算。以GPT- 3大模型训练为例，模型参数量为175B，训练Token数量为300B，采用稠密（Dense）模型，其需要的训练总算力为175B × 300B × 6 = 3.15/span>23 FLOPs。
所需算力卡数量及时间：假设使用业内FLOPS最大的利用率来测算（此处取46.2%），单卡A100 FP16精度下算力为312 TFLOPS，则3.15 /span>23 FLOPs/(312 TFLOPs × 46.2% × 3600s × 24h/天)= 2.53万张A100/天，即若使用1000张A100，大约训练一遍GPT-3需要25.3天。

大模型推理算力测算：

推理过程主要包括分词（Tokenize）、嵌入（Embedding）、位置编码（Positional Encoding）、Transformer层、Softmax。推理主要计算量在 Transfomer解码层，对于每个token、每个模型参数，需要进行2 × 1 Flops = 2次浮点运算，则单词推理算力消耗为模型参数量 × （提问Tokens + 回答Tokens） × 2。
以GPT-3单次推理为例，假设用户每次提问20 Tokens，ChatGPT回答300 Tokens，模型参数量为175B，则单次推理算力需求为175B × （20 Tokens + 300 Tokens） ×2 = 1.12/span>14 FLOPs，若使用单张A100 GPU进行推理，假设芯片利用率为46.2%，则完成单次所需时间为1.12 /span>14 FLOPs/(312 TFLOPs × 46.2%)=0.78s

图像模态拉动AI算力需求增长

图像训练数据大幅提升训练Token量。以BEIT方法为例，单一图片训练素材可以有两种表达形式，即Image Patches和Visual Tokens。
Image Patches：将图片分成N=HW/P2个展平的2D块，每个image patches会被展平成向量，并对其进行线性变换操作，进而得到一系列展平的2D块的序列；随后使用类BERT的子监督训练方式（Masked Image Modeling），即随机隐藏部分Image Patches，让模型对隐藏的部分进行预期，进而不断计算预测的Patches和真实的Patches之间的差异，并将该差异作为Loss函数进行反向传播来更新参数。
Visual Tokens：BEIT通过DVAE（Discrete Variational Autoencoder，核心原理是试图构建一个从隐变量Z生成目标数据X的模型）中的Image Tokenizer，将单一图片训练素材转化为离散的Tokens（即隐变量），再通过生成器（Decoder）重建原图。
图片对训练数据量的提升：
以Image Patches方法为例，1张图片可以分割为N=HW/P2个2D块（即视为输入的Tokens），其中（H，W)为输入图片的分辨率，（P，P)是2D块的大小，在《BEIT: BERT Pre-Training of Image Transformers》实际操作中，有1张224*224大小的图片分割成16*16大小的2D小块，即单一图片相当于（224*224）/(16*16)=196个Tokens。而在纯文本训练素材中，单一单词约为4/3个 Token，则1张图片（分辨率224*224）约等于147个单词。根据上文所述，AI训练算力需求 = 模型参数量 × 训练Token量 × 6，图片训练素材的加入，拉动训练Token量的大幅增长，进而大幅提升AI训练算力需求。
增量测算：a）数据量：根据《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning （Pablo等著，2022年）》披露数据，2022年全球图片数量在5/span>10-2/span>11个，我们取中间值（即1 /span>11个），选取常用图片分辨率（1024×768），则单张图片对应（1024*768）/(16*16)=3072个Tokens，则全部图片对应3.072 /span>14个Tokens。b）算力需求：假设使用这些图片数据对一个5000亿参数模型进行训练，则对应的AI训练算力需求 = 500B × 3.072 /span>14 × 6 = 9.216e26 FLOPs。c）训练卡需求：以英伟达H100为例，在FP16精度下算力为1979 TFLOPS，仍假设芯片利用率为46.2%，则9.216 /span>26 FLOPs/(1979 TFLOPs × 46.2% × 3600s × 24h/天 × 30天/月)= 38.89万张H100/月，即完成对图片数据的训练需使用38.89万张H100训练一个月（针对单一模型），假设全球有5家厂商使用图片素材进行自研大模型训练，则需要194.45万张H100训练一个月。

视频训练数据大幅提升训练Token量。

以字节跳动最新提出《MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation》方法为例，该模型是一个多阶段端到端视频生成模型，具体可分为以下4个关键模块：

Text-to-Image模块（文本到图像）：从给定的文本提示，生成概括所描述场景的高分辨率图像（分辨率为1024*1024）；
Image-to-Video模块（图像到视频）：通过文本提示和生成的图像创建关键帧（32帧），使得静态图像动态化（分辨率为600*600）；
Video-to-Video模块（视频到视频）：增强并细化视频帧的内容，并拓展至更高的分辨率（分辨率为1048*1048）；
Video Frame Interpolation（VFI，帧插值）模块：在关键帧之间插入帧以平滑视频运动（94帧），确保动作流畅和时间一致性。
其中，Text-to-Image模块（文本到图像）的训练同前文图像模态训练相似，除了BEIT方法外，OFA等方法亦可得到不错的Text-to-Image模型。

报告原文节选如下：

本文仅供参考，不代表我们的任何投资建议。【幻影视界】整理分享的资料仅推荐阅读，用户获取的资料仅供个人学习，如需使用请参阅报告原文。

AI大模型专题报告：大模型进展2.0

推荐体验

相关资讯

聚焦AI大模型：原理、进展及其影响（CMF专题报告）

AI大模型专题报告：从世界模型看算力需求变化

AI大模型超配 ChatGPT 取得突破性进展，2023年互联网行业专题报告讲解

AIGC专题报告：国内外大模型和AI应用梳理（附下载）

AI大模型专题报告：AI大模型及应用加速落地，持续带动算力产业链发展

近期资讯

金成中天科技取得室外新能源充电桩专利，实用性强

字跳网络申请用于语音处理的专利，提高语音输入便利性

极氪蓝色申请模型优化方法专利，有效提高用户使用体验

景雄科技申请动态降噪与多语音增强专利，提高了音频的降噪效果

小米申请音频信号处理专利，实现多路音频信号同时播放

西藏峦赛智慧物联工程取得便于维护的新能源充电桩专利，提高充电桩的散热效果

嘉善浩业电子取得一种用于充电桩的多方位散热系统专利，加快降温速度提升散热效率

深圳市易思态科技申请基于蓝牙传输的同声传译专利，大幅扩展了应用场景

腾讯科技申请语音增强专利，实现语音通话中语音信号快速增强处理

特斯拉（广州）取得直流充电桩降噪结构专利，提高降噪效果

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响