今天分享的是AI 大模型系列深度研究报告:《AI大模型专题:落地为王》。
(报告出品方:华安证券)
报告共计:75页
海量/完整电子版/报告下载方式:公众号《人工智能学派》
随着深度神经网络的兴起,人工智能进入统计分类深度模型时代,这种模型比以往的模型更加泛化,可以通过提取不同特征值应用于不同场景。但在2018年-2019年,双下降现象的发现打破了原有的人工智能发展格局。简而言之,以往的数学理论表明,随着参数增多、模型增大,过拟合导致模型的误差会先下降后上升,这使得找到精度最高误差最小的点成为模型调整的目标。而随着人工智能算法算力的不断发展,研究者发现如果继续不设上限的增大模型,模型误差会在升高后第二次降低,并且误差下降会随着模型的不断增大而降低,通俗而言模型越大,准确率越高。因此人工智能发展进入了大模型时代。
基于以上现象,以Transformer 模型为基础,在 1750 亿参数量还有超大的 45TB的训练数据的支撑下,ChatGPT 模型一经问世便获得相当高的认可和关注,成为现象级的 AI 模型产品。后续随着 GPT-4 模型的推出,其解决问题、精准推理、多模态下的表现再一次引发业界的高度关注。
相比传统 AI 模型,大模型的优势体现在:
1)解决 AI 过于碎片化和多样化的问题,极大提高模型的泛用性。应对不同场景 时,AI 模型往往需要进行针对化的开发、调参、优化、迭代,需要耗费大量的人力成 本,导致了 AI 手工作坊化。大模型采用“预训练+下游任务微调”的方式,首先从大量标 记或者未标记的数据中捕获信息,将信息存储到大量的参数中,再进行微调,极大提高 模型的泛用性。
2)具备自监督学习功能,降低训练研发成本。我们可以将自监督学习功能表观理 解为降低对数据标注的依赖,大量无标记数据能够被直接应用。这样一来,一方面降低 人工成本,另一方面,使得小样本训练成为可能。
3)摆脱结构变革桎梏,打开模型精度上限。过去想要提升模型精度,主要依赖网 络在结构上的变革。随着神经网络结构设计技术逐渐成熟并开始趋同,想要通过优化神 经网络结构从而打破精度局限变得困难。而研究证明,更大的数据规模确实提高了模型 的精度上限。
4)大量高度定制化的垂类模型。基于大模型技术,通过精调和定制,具备大量专 业知识和对话能力的垂类模型能够帮助细分场景提升工作效率。
整个人工智能的产业链包括算力、数据、算法乃至下游应用。
算力与网络:英伟达的研究表示,GPT-3 模型需要使用 512 颗 V100 显卡训练 7 个 月时间,或者使用 1024 颗 A100 芯片训练长达一个月的时间。随着各大科技厂商投入对 大模型的研发,势必增加芯片、服务器等算力需求。同时,庞大的 AI 算力集群,又需要高带宽支撑数据传输。
数据:数据采集、数据标注和数据质检是较为重要的三个环节。从自然数据源简单 收集取得的原料数据并不能直接用于有效监督的深度学习算法训练,经过专业化采集、 加工形成的训练数据集才能供深度学习算法等训练使用,由此带来数据服务需求。
算法:相比传统 AI 模型,大模型的优势体现在:1)解决 AI 过于碎片化和多样化的 问题;2) 具备自监督学习功能,降低训练研发成本;3)摆脱结构变革桎梏,打开模型精度上限。对于大模型算法的研发、优化,亦是投入的重点。
下游应用:产业界一直以来都在寻求人工智能的应用领域、商业模式突破。随着大 模型使用、人工智能算法精度提升,下游应用的扩展可期。
1)AI 服务器需求旺盛,国产算力有望加速
对于大模型训练而言,算力硬件是其发展的核心基石之一。传统的 GPU 的主要功 能是做图形渲染(实质是做图形渲染的计算),但随着 AI 计算需求的发展,GPGPU 应 运而生,GPGPU 即为通用计算 GPU,指去掉 GPU 的图形显示部分,将其余部分全部 投入通用计算,其在 AI、数据分析和 HPC 等场景下可以广泛应用。通用 GPU 在加速 硬件能力上的优势比较明显,在深度学习训练方面比较适用,是目前主流的 AI 硬件产 品。
FPGA 和 ASIC 芯片也占据一席之地。实际应用中,微软利用 FPGA 加速 Azure 云 服务、必应等数据中心服务中的实时人工智能。FPGA 具备快速、低功耗、灵活和高效 的优点。硬件可编程的特性使得 FPGA 在 AI 训练中既能提供充足的算力,又具有灵活 性,可以重新编程以适应不同任务的需要。ASIC 是专用集成电路,与 FPGA 相比,在 量产后 ASIC 的成本会低,性能会相对优异,但并没有 FPGA 的可编程的特性,灵活调 整的空间较小。同时,ASIC 的一次性开发成本也比较高。作为全定制化的芯片,ASIC 将随着人工智能产业生态的逐渐完善获得更广阔的空间。
在具体型号方面,以英伟达 A100、H100,AMD MI250,寒武纪思元系列,华为昇 腾系列等产品占据市场较多。行业龙头英伟达凭借其成熟的芯片设计、先进工艺的产能 优势、完善的 CUDA 生态,在 AI 芯片赛道占据显著优势。
从芯片端看,英伟达于 11 月 14 日发布了其新一代数据中心高性能 GPU 产品 H200, 有望进一步突破大参数模型的计算能力上限。从核心计算能力来看,H200 和 H100 在表 观参数上基本一致,FP16 Tensor 均为 1979 TFLOPS,可比的前代产品 A100(80GB SXM)为 624 TFLOPS。其他性能参数包括 FP64、FP32、INT8 等,H200 与 H100 均 保持一致。但 H200 作为首款搭载 HBM3e 显存的 GPU,其显存容量来到了 141GB,相 比 H100 的 80GB 显存扩容显著。与此同时,GPU 显存带宽这一关键性指标也相比 H100 (SXM)提高至 1.4 倍,由 3.35TB/s 增长至 4.8TB/s。参考 A100 80GB SXM 显存带宽 约为 2TB/s,新的显存技术将带来明显的交互性能提升。
基于性能强劲且快速迭代的 AI 芯片,英伟达不断推出集群、边缘计算、HPC 解决方案,不断强化其竞争优势。
2)算力租赁价格受供需关系影响,有望保持长期高水位
零售端,以 DEEPLN 平台公布的单卡租赁价格测算,以较为主流的 A100(80G) 为例,单卡每小时租金 6.72 元,每月约为 4838 元,折算年租金为 5.8 万元,此外值得 注意的是,部分热门型号处于缺货状态。
企业采招端,以中国电信宁夏公司 2023 年算力服务集中采购项目中标候选人公示 为例,有方科技在标段 2 中的投标报价为,A800 智算算力服务不含税单价:11530.00 元/月/PFLOPS。折合成 A100(80G)单卡约 7000 元/月,相对零售价格更高。
一方面,企业合同期限通常较长,合同期内不存在受算力租赁价格波动影响带来收益变化。另一方面,企业采购通常以打包方案,配以完整的运维、网安、IDC 资源,且 不存在硬件利用率问题,长期合作关系能保证算力提供方项目的盈利空间。综合来看, 面向运营商和大型企业的算力租赁业务效益好、风险低。
报告共计:75页
海量/完整电子版/报告下载方式:公众号《人工智能学派》
银桑老师谈科技 2024-12-26
多奥科技 2024-12-26
无损修复烧机油 2024-12-26
深圳市智物通讯科技 2024-12-26